为 什么 要 写 这 本 书 
LinkedIn 对 全 球 超过 3.3 亿 用 户 的 工作 经 历 和 技能 进行 分 析 后 得 出 ， 目 前 最 受 关注 的 25 项 技能 中 ， 对 数据 挖掘 人 才 的 需求 排名 第 一 。 那 么 数据 挖掘 是 什么 ? 


数据 挖掘 是 从 大 量 数据 (包括 文本 ) 中 挖掘 出 隐 含 的 、 先 前 未 知 的 、 对 决策 有 潜在 价值 的 关系 、 模 式 和 趋势 ， 并 用 这 些 知识 和 规则 建立 用 于 决策 支持 的 模型 ， 提 供 预测 性 决策 支持 的 方法 、 工 具 和 过 
程 。 数 据 挖掘 有 助 于 企业 发 现 业务 的 发 展 趋势 ， 揭 示 已 知 的 事实 ， 预 测 未 知 的 结果 ， 因 此 “数据 挖掘 ”已 成 为 企业 保持 竞争 力 的 必要 方法 。 


但 跟 国 外 相 比 ， 我 国 由 于 信息 化 程度 不 太 高 ， 企 业内 部 信息 不 完整 ， 零 售 业 、 银 行 、 保 险 、 证 券 等 对 数据 挖掘 的 应 用 并 不 太 理想 。 但 随 着 市 场 竞争 的 加 剧 ， 各 行业 对 数据 挖掘 技术 的 意愿 越 来 越 强 烈 ， 
可 以 预计 ， 未 来 几 年 各 行业 的 数据 分 析 应 用 一 定 会 从 传统 的 统计 分 析 发 展 到 大 规模 数据 挖掘 应 用 。 在 大 数据 时 代 ， 数 据 过 剩 、 人 才 短缺 ， 数 据 挖掘 专业 人 才 的 培养 又 需要 专业 知识 和 职业 经 验 积累 。 所 以 ， 
本 书 注重 数据 挖掘 理论 与 项 目 案例 实 践 相 结 合 ， 可 以 让 读者 获得 真实 的 数据 挖掘 学 习 与 实践 环境 ， 更 快 、 更 好 地 学 习 数 据 挖掘 知识 与 积累 职业 经 验 。 


总 体 来 说 ， 随 着 云 时 代 的 来 临 ， 大 数据 技术 将 具有 越 来 越 重 要 的 战略 意义 。 大 数据 已 经 渗透 到 每 一 个 行业 和 业务 职能 领域 ， 逐 渐 成 为 重要 的 生产 要 素 ， 人 们 对 于 海量 数据 的 运用 预示 着 新 一 轮 生 产 率 增 
长 和 消费 者 盈余 浪潮 的 到 来 。 大 数据 分 析 技 术 将 帮助 企业 用 户 在 合理 的 时 间 内 抽取 、 管 理 、 处 理 、 整 理 海量 数据 ， 为 企业 经 营 决策 提供 积极 的 帮助 。 大 数据 分 析 作 为 数据 存储 和 挖 扎 分 析 的 前 沿 技 术 ， 广 泛 
应 用 于 物 联 网 、 云 计算 、 移 动 互联 网 等 战略 性 新 兴 产 业 。 虽 然 大 数据 目前 在 国内 还 处 于 初级 阶段 ， 但 是 其 商业 价值 已 经 显现 出 来 ， 特 别 是 有 实践 经 验 的 大 数据 分 析 人 才 更 是 各 企业 争夺 的 热门 。 为 了 满足 日 
益 增 长 的 对 大 数据 分 析 人 才 的 需求 ， 很 多 大 学 开始 尝试 开设 不 同 程度 的 大 数据 分 析 课 程 。“ 大 数据 分 析 ” 作 为 大 数据 时 代 的 核心 技术 ， 必 将 成 为 高 校 数 学 与 统计 学 专业 的 重要 课程 之 一 。 


本 书 特色 


笔者 从 实践 出 发 ， 结 合 大 量 数 据 挖掘 工程 案例 与 教学 经 验 ， 以 真实 案例 为 主线 ， 深 入 浅 出 地 介绍 数据 挖掘 建 模 过 程 中 的 有 关 任 务 : 数据 探索 、 数 据 预 处 理 、 分 类 与 预测 、 聚 类 分 析 、 时 序 预测 、 关 联 规 
则 挖掘 、 智 能 推荐 、 偏 差 检 测 等 。 因 此 ， 本 书 的 编排 以 解决 某 个 应 用 的 挖掘 目标 为 前 提 ， 先 介绍 案例 背景 ， 提 出 挖掘 目标 ， 再 阐 述 分 析 方 法 与 过 程 ， 最 后 完成 模型 构建 ， 在 介绍 建 模 过 程 中 会 穿插 操作 训 
练 ， 把 相关 的 知识 点 嵌入 相应 的 操作 过 程 中 。 为 方便 读者 轻松 地 获取 一 个 真实 的 实验 环境 ， 本 书 使 用 大 家 熟知 的 R 语 言 对 样本 数据 进行 处 理 以 进行 挖掘 建 模 。 


根据 读者 对 案例 的 理解 ， 本 书 配套 提供 了 真实 的 原始 样本 数据 文件 及 数据 探索 、 数 据 预 处 理 、 模 型 构建 及 评价 等 不 同 阶段 的 R 语 言 代 码 程序 ， 读 者 可 以 从 全 国 大 学 生 数 据 挖掘 竞赛 网 站 
(http://www.tipdm.org/ts/654jhtml) 免费 下 载 。 另 外 ， 为 方便 教师 授课 需要 ， 本 书 还 特意 提供 了 建 模 阶 段 的 过 程 数据 文件 、PPT 课 件 ， 以 及 基于 R、SAS EM. SPSS Modeler、MATLAB、TipDM 等 上 
机 实验 环境 下 的 数据 挖掘 各 阶段 程序 /模型 及 相关 代码 ， 读 者 可 通过 热线 电话 (40068-40020) 、 企 业 QQ (4006840020) 或 以 下 微 信 公众 号 咨询 获取 。 读 者 也 可 通过 这 些 方式 进行 在 线 咨 询 。 


mr 1-5 


E а | С | 


本 书 适 用 对 象 
' 开设 有 数据 挖 据 课程 的 高 校 教师 和 学 生 。 


目前 国内 不 少 高 校 将 数据 挖掘 引入 本 科教 学 中 ， 在 数学 、 计 算 机 、 自 动 化 、 电 子 信息 、 人 金融 等 专业 开设 了 数据 挖掘 技术 相关 的 课程 ， 但 目前 这 一 课程 的 教学 仍然 主要 限于 理论 介绍 。 因 为 单纯 的 理论 教 
学 过 于 抽象 ， 学 生理 解 起 来 往往 比较 困难 ， 教 学 效果 也 不 甚 理 想 。 本 书 提供 的 基于 实战 案例 和 建 模 实践 的 教学 ， 能 够 使 师 生 充分 发 挥 互动 性 和 创造 性 ， 做 到 理论 联系 实际 ， 使 师 生 获得 最 佳 的 教学 效果 。 


需求 分 析 及 系统 设计 人 员 。 

这 类 人 员 可 以 在 理解 数据 挖掘 原理 及 建 模 过 程 的 基础 上 ， 结 合 数据 挖掘 案例 完成 精确 营销 、 客 户 分 群 、 交 叉 销 售 、 流 失 分 析 、 客 户 信用 记分 、 欺 诈 发 现 、 智 能 推荐 等 数据 挖掘 应 用 的 需求 分 析 和 设计 。 
“ 数据 挖掘 开发 人 员 。 

这 类 人 员 可 以 在 理解 数据 挖掘 应 用 需求 和 设计 方案 的 基础 上 ， 结 合 本 书 提供 的 基于 第 三 方 的 接口 快速 完成 数据 挖掘 应 用 的 编程 实现 。 

` 进行 数据 挖掘 应 用 研究 的 科研 人 员 。 


许多 科研 院 所 为 了 更 好 地 对 科研 工作 进行 管理 ， 纷 纷 开 发 了 适应 自身 特点 的 科研 业务 管理 系统 ， 并 在 使 用 过 程 中 积累 了 大 量 的 科研 信息 数据 。 但 是 ， 这 些 科研 业务 管理 系统 一 般 没有 对 这 些 数 据 进行 深 
入 分 析 ， 对 数据 所 隐藏 的 价值 并 没有 充分 挖掘 利用 。 科 研 人 员 需 要 利用 数据 挖掘 建 模 工 具 及 有 关 方 法 论 来 深 挖 科 研 信息 的 价值 ， 从 而 提高 科研 水 平 。 


- 关注 高 级 数据 分 析 的 人 员 。 


业务 报告 和 商业 智能 解决 方案 对 于 了 解 过 去 和 现在 的 状况 可 能 是 非常 有 用 的 。 但 是 ， 数 据 挖掘 的 预测 分 析 解 决 方案 还 能 使 这 类 人 员 预 见 未 来 的 发 展 状况 ， 让 他 们 的 机 构 能 够 先发制人 ， 而 不 是 处 于 被 


动 。 因 为 数据 挖掘 的 预测 分 析 解 决 方案 可 将 复杂 的 统计 方法 和 机 器 学 习 技术 应 用 到 数据 之 中 ， 通 过 使 用 预测 分 析 技 术 来 揭示 隐藏 在 交易 系统 或 企业 资源 计划 (ЕВР) 、 结 构 数 据 库 和 普通 文件 中 的 模式 与 趋 
势 ， 从 而 为 这 类 人 员 做 决策 提供 科学 依据 。 
如 何 阅读 本 书 


本 书 共 16 章 ， 分 三 个 部 分 : 基础 篇 、 实 战 篇 、 提 高 篇 。 基 础 篇 介绍 了 数据 挖掘 的 基本 原理 ， 实 战 篇 介绍 了 多 个 真实 案例 ， 通 过 对 案例 深入 浅 出 的 剖析 ， 使 读者 在 不 知 不 党 中 获得 数据 挖掘 项 目 经 验 ， 同 
时 快速 领悟 看 似 难 懂 的 数据 挖掘 理论 。 读 者 在 阅读 过 程 中 ， 应 充分 利用 随 书 配套 的 案例 建 模 数 据 ， 借 助 相 关 的 数据 挖掘 建 模 工 具 ， 通 过 上 机 实验 快速 理解 相关 知识 与 理论 。 


第 一 部 分 是 基础 篇 (第 1~5 章 ) ， 第 1 章 的 主要 内 容 是 数据 挖掘 概述 ;第 2 章 对 本 书 所 用 到 的 数据 挖掘 建 模 工具 一 一 R 语 言 进行 了 简明 扼要 的 说 明 ; 第 3~5 章 对 数据 挖掘 的 建 模 过 程 ， 包 括 数据 探索 、 数 据 
预 处 理 及 挖掘 建 模 的 常用 算法 与 原理 进行 了 介绍 。 


二 部 分 是 实战 篇 (第 6~ 15 章 ) ， 重 点 对 数据 挖掘 技术 在 电力 、 航 空 、 医 疗 、 互 联网 、 生 产 制造 以 及 公共 服务 等 行业 的 应 用 进行 了 分 析 。 在 案例 结构 组 织 上 ， 本 书 是 按照 先 介绍 案 例 背景 与 挖掘 目标 ， 
再 阐述 分 析 方 法 与 过 程 ， 最 后 完成 模型 构建 的 顺序 进行 的 。 在 建 模 过程 的 关键 环节 ， 穿 插 程 序 实现 代码 。 最 后 通过 上 机 实践 ， 加 深 读 者 数据 挖掘 技术 在 案例 应 用 中 的 理解 。 


第 三 部 分 是 提高 篇 (第 16 章 ) ， 介 绍 了 基于 R 语 言 二 次 开发 的 数据 挖掘 应 用 软件 一 TipDM 数 据 挖掘 建 模 工具 ， 并 以 此 工具 为 例 详 细 介绍 了 基于 R 语 言 完 成 数据 挖掘 二 次 开发 的 各 个 步骤 ， 使 读者 体验 
到 通过 R 语 言 实现 数据 挖 气 二 次 开 友 的 强大 魅力 。 


勘误 和 支持 


除 封 面 署名 外 ， 参 加 本 书 编写 工作 的 还 有 樊 哲 、 陈 庚 、 卢 丹 丹 、 魏 润 润 、 范 正 丰 、 徐 英 刚 、 雇 晓 霞 、 刘 名 军 、 李 成 华 、 刘 丽 君 等 。 由 于 笔者 的 水 平 有 限 ， 编 写 时 间 仓促 ， 书 中 难免 会 出 现 一 些 错误 或 者 
不 准确 的 地 方 ， 恳 请 读者 批评 指正 。 为 此 ， 读 者 可 通过 作者 微 信 公众 号 TipDM ( 微 信号 : TipDataMining) 、TipDM 官 网 (www:tipdm.com) 反馈 有 关 问 题 。 


读者 可 以 将 书 中 的 错误 及 遇 到 的 任何 问题 反馈 给 我 们 ， 我 们 将 尽量 在 线 上 为 读者 提供 最 满意 的 解答 。 本 书 的 全 部 建 模 数据 文件 及 源 程序 ， 可 以 从 全 国 大 学 生 数 据 挖掘 竞赛 网 站 
(http://www.tipdm.org) 下 载 ， 我 们 会 将 相应 内 容 的 更 新 及 时 发 布 出 来 。 如 果 您 有 更 多 的 宝贵 意见 ， 欢 迎 发 送 邮件 至 邮箱 13560356095@qq.com， 期 待 能 够 得 到 您 的 真挚 反馈 。 
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基础 篇 


-PIF ”数据 挖掘 基础 
.第 2 章 语言 简介 
ЖЭБ ”数据 探索 
. 第 4 章 ”数据 预 处 理 
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第 1 草 数据 挖掘 基 础 


1.1 某 和 名 连锁 餐饮 企业 的 困惑 
国内 某 餐 饮 连 锁 有 限 公 司 (以 下 简称 T 和 餐饮 ) 成 立 于 1998 年 ， 主 要 经 莒 粤菜 ， 兼 顾 湘 菜 、 川 菜 等 综合 菜系 。 至 今 已 经 发 展 成 为 在 国内 具有 一 定 知名 度 、 美 誉 度 、 多 品牌 、 立 体 化 的 大 型 餐饮 连锁 企业 。 
下 属 员工 1000 多 人 ， 拥 有 16 家 直 萤 分 店 ， 经 营 总 面积 近 13000 平 方 米 ， 年 营业 额 近 亿 元。 其 旗下 各 分 店 均 坐 落 在 繁华 市 区 主干 道 ， 雅 致 的 装潢 ， 配 之 以 精致 的 饰品 、 灯 具 、 器 物 ， 出 品 精美 ， 服 务 规范 。 


近年 来 餐饮 行业 面临 较为 复杂 的 市 场 环境 ， 与 其 他 行业 一 样 餐饮 企业 都 遇 到 了 原材料 成 本 升 高 、 人 力 成 本 升 高 、 房 租 成 本 升 高 等 问题 ， 这 也 使 得 整个 行业 的 利润 率 急 剧 下 降 。 人 力 成 本 和 房租 成 本 的 上 
升 是 必然 趋势 ， 如 何在 保证 产品 质量 的 同时 提高 企业 效率 ， 成 为 T 餐 饮 企业 急需 解决 的 问题 。2000 年 以 来 ，T 餐 饮 企业 通过 加 强 信息 化 管理 来 提高 效率 ， 目 前 已 上 线 的 管理 系统 包括 : 


(1) 客户 关系 管理 系统 


该 系统 详细 记录 了 每 位 客人 的 喜好 ， 为 顾客 提供 个 性 化 服务 ， 满 足 客 户 的 个 性 化 需求 。 通 过 客户 关怀 ， 提 高 客户 的 忠诚 度 。 例 如 ， 企 业 能 随时 查询 了 解 今天 哪 位 客人 过 生日 或 其 他 纪念 日 ， 根 据 客 人 的 
价值 分 类 进行 相应 关怀 ， 如 送 鲜 化 、 生 日 蛋糕 、 寿 面 等 。 通 过 本 系统 ， 还 可 对 客户 行为 进行 深入 分 析 ， 包 括 客 户 价值 分 析 、 新 客户 分 析 与 发 展 ， 并 根据 其 价值 情况 提供 给 管理 者 ， 为 企业 提供 决策 支持 。 


(2) 前 厅 管 理 系统 


该 系统 通过 掌上 电脑 无 线 点 菜 方式 ， 改 变 了 传统 “饭店 点 菜 、 下 单 、 结 账 一 支 笔 、 一 张 纸 ， 服 务 员 来 回 跑 的 局 面 ”， 快 速 完成 点 菜 过 程 。 通 过 厨房 自动 送 达 信息 ， 服 务 员 的 写 菜 速 度 加 快 不 需要 再 通过 
手写 ， 同 时 传 菜 部 也 轻松 不 少 ， 菜 单 会 通过 电脑 自动 打印 出 来 ， 差 错 率 降低 ， 也 不 存在 厨房 人 员 看 不 懂 服 务 员 字迹 而 搞 错 的 问题 。 


(3) 后 厨 管理 系统 


信息 化 技术 可 实现 后 厨 与 前 厅 沟 通 无 障碍 ， 客 人 菜单 瞬间 传 到 厨房 。 服 务 员 只 需 点 击 掌上 电脑 的 发 送 键 ， 客 人 的 菜单 即 被 传送 到 收银 管理 系统 中 ， 由 系统 的 电脑 发 出 指令 ， 设 在 厨房 等 处 的 打印 机 立即 
打印 出 相应 的 菜单 ， 厨 师 按 单 做 菜 。 与 此 同时 ， 收 银 台 也 打印 出 一 张 同样 的 菜单 放 在 客人 桌 上 ， 以 备 客人 查询 以 及 作 结 账 凭据 ， 使 客人 明明 白白 地 消费 。 


(4) 财务 管理 系统 


该 系统 完成 销售 统计 、 销 售 分 析 、 财 务 审计 ， 实 现 对 日 常 经 莒 销售 的 管理 。 通 过 报表 ， 企 业 管理 者 很 容易 掌握 前 台 的 销售 情况 ， 从 而 达到 对 财务 的 控制 。 通 过 表格 和 图 形 可 以 显示 餐厅 的 销售 情况 ， 如 
菜品 排行 榜 、 日 客户 流量 、 日 销售 收入 分 析 等 ; 统计 每 天 的 出 菜 情 况 ， 我 们 可 以 了 解 哪些 是 清 销 菜 ， 哪 些 是 畅销 菜 ， 从 而 了 解 顾客 的 品位 ， 有 针对 性 地 制定 出 一 套 既 适合 餐饮 企业 发 展 又 能 迎合 顾客 品位 的 
菜肴 体 系 和 定价 策略 。 


(5) 物资 管理 系统 


该 系统 主要 完成 对 物资 的 进 销 存 ， 实 际 上 就 是 一 套 融 采购 管理 (入 库 、 供 应 商 管理 、 账 款 管理 ) 、 销 售 (通过 配 菜 卡 与 前 台 销 售 联动 ) 、 盘 存 为 一 体 的 物流 管理 系统 。 对 于 连锁 企业 ， 还 涉及 统一 配送 


管理 等 。 


通过 以 上 信息 化 的 建设 ，T 餐 饮 已 经 积累 了 大 量 的 历史 数据 ， 有 没有 一 种 方法 可 才 助 企业 从 这 些 数 据 中 洞察 商机 ， 提 取 价 值 ? 在 同 质 化 的 市 场 竞 争 中 ， 怎 样 找到 一 些 市 场 以 前 并 不 存在 的 “ 抢 漏 ”和 “ 补 
№"? 


第 1 章 ”数据 挖掘 基础 


1.1 “有 某 关 名 连锁 餐饮 企业 的 困惑 
国内 某 餐 饮 连 锁 有 限 公司 (以 下 简称 T 餐 饮 ) 成 立 于 1998 年 ， 主 要 经 莒 粤菜 ， 兼 顾 湘 菜 、 川 菜 等 综合 菜系 。 至 今 已 经 发 展 成 为 在 国内 具有 一 定 知名 度 、 美 誉 度 、 多 品牌 、 立 体 化 的 大 型 餐饮 连锁 企业 。 
下 属 员工 1000 多 人 ， 拥 有 16 家 直 营 分 店 ， 经 营 总 面积 近 13000 平 方 米 ， 年 营业 额 近 亿 元。 其 旗下 各 分 店 均 坐 落 在 繁华 市 区 主干 道 ， 雅 致 的 装潢 ， 配 之 以 精致 的 饰品 、 灯 具 、 器 物 ， 出 品 精美 ， 服 务 规范 。 


近年 来 餐饮 行业 面临 较为 复杂 的 市 场 环境 ， 与 其 他 行业 一 样 餐饮 企业 都 遇 到 了 原材料 成 本 升 高 、 人 力 成 本 升 高 、 房 租 成 本 升 高 等 问题 ， 这 也 使 得 整个 行业 的 利润 率 急 剧 下 降 。 人 力 成 本 和 房租 成 本 的 上 
升 是 必然 趋势 ， 如 何在 保证 产品 质量 的 同时 提高 企业 效率 ， 成 为 ?餐饮 企业 急需 解决 的 问题 。2000 年 以 来 ，T 和 餐饮 企业 通过 加 强 信 息 化 管理 来 提高 效率 ， 目 前 已 上 线 的 管理 系统 包括 : 


(1) 客户 关系 管理 系统 


该 系统 详细 记录 了 每 位 客人 的 喜好 ， 为 顾客 提供 个 性 化 服务 ， 满 足 客 户 的 个 性 化 需求 。 通 过 客户 关怀 ， 提 高 客户 的 忠诚 度 。 例 如 ， 企 业 能 随时 查询 了 解 今天 哪 位 客人 过 生日 或 其 他 纪念 日 ， 根 据 客 人 的 
价值 分 类 进行 相应 关怀 ， 如 送 鲜 化 、 生 日 蛋糕 、 寿 面 等 。 通 过 本 系统 ， 还 可 对 客户 行为 进行 深入 分 析 ， 包 括 客 户 价值 分 析 、 新 客户 分 析 与 发 展 ， 并 根据 其 价值 情况 提供 给 管理 者 ， 为 企业 提供 决策 支持 。 


(2) 前 厅 管 理 系统 


该 系统 通过 掌上 电脑 无 线 点 菜 方式 ， 改 变 了 传统 “饭店 点 菜 、 下 单 、 结 账 一 支 笔 、 一 张 纸 ， 服 务 员 来 回 跑 的 局 面 ”， 人 快速 完成 点 菜 过 程 。 通 过 厨房 自动 送 达 信息 ， 服 务 员 的 写 菜 速 度 加 快 不 需要 再 通过 
手写 ， 同 时 传 菜 部 也 轻松 不 少 ， 莱 单 会 通过 电脑 自动 打印 出 来 ， 差 错 率 降低 ， 也 不 存在 厨房 人 员 看 不 懂 服 务 员 字 迹 而 搞 错 的 问题 。 


(3) 后 厨 管理 系统 


言 息 化 技术 可 实现 后 厨 与 前 厅 沟 通 无 障碍 ， 客 人 菜单 瞬间 传 到 厨房 。 服 务 员 只 需 点 击 掌上 电脑 的 发 送 键 ， 客 人 的 菜单 即 被 传送 到 收银 管理 系统 中 ， 由 系统 的 电脑 发 出 指令 ， 设 在 厨房 等 处 的 打印 机 立即 
打印 出 相应 的 菜单 ， 厨 师 按 单 做 菜 。 与 此 同时 ， 收 银 台 也 打印 出 一 张 同样 的 菜单 放 在 客人 桌 上 ， 以 备 客人 查询 以 及 作 结 账 凭据 ， 使 客人 明明 白白 地 消费 。 


(4) 财务 管理 系统 


该 系统 完成 销售 统计 、 销 售 分 析 、 财 务 审计 ， 实 现 对 日 常 经 营销 售 的 管理 。 通 过 报表 ， 企 业 管理 者 很 容易 掌握 前 台 的 销售 情况 ， 从 而 达到 对 财务 的 控制 。 通 过 表格 和 图 形 可 以 显示 餐厅 的 销售 情况 ， 如 
菜品 排行 榜 、 日 客户 流量 、 日 销售 收入 分 析 等 ; 统计 每 天 的 出 菜 情 况 ， 我 们 可 以 了 解 哪些 是 清 销 菜 ， 哪 些 是 畅销 菜 ， 从 而 了 解 顾客 的 品位 ， 有 针对 性 地 制定 出 一 套 既 适合 餐饮 企业 发 展 又 能 迎合 顾客 品位 的 
菜肴 体系 和 定价 策略 。 


(5) 物资 管理 系统 


该 系统 主要 完成 对 物资 的 进 销 存 ， 实 际 上 就 是 一 套 融 采购 管理 (入 库 、 供 应 商 管 理 、 账 款 管理 ) 、 销 售 (通过 配 莱卡 与 前 台 销 售 联动 ) 、 盘 存 为 一 体 的 物流 管理 系统 。 对 于 连锁 企业 ， 还 涉及 统一 配送 


管理 等 。 


通过 以 上 信息 化 的 建设 ，T 餐 饮 已 经 积累 了 大 量 的 历史 数据 ， 有 没有 一 种 方法 可 帮助 企业 从 这 些 数据 中 洞察 商机 ， 提 取 价 什 ? 在 同 质 化 的 市 场 竞 争 中 ， 怎 样 找到 一 些 市 场 以 前 并 不 存在 的 “ 抢 漏 ”和 “ 补 
缺 ? 


12 ”从 餐饮 服务 到 数据 挖掘 
企业 经 营 最 大 的 目的 就 是 便利， 而 餐饮 业 企业 盈利 的 核心 就 是 其 菜品 和 顾客 ， 也 就 是 其 提供 的 产品 和 服务 对 象 。 企 业经 营 者 每 天 都 在 想 推出 什么 样 的 菜系 和 种 类 能 吸引 更 多 的 顾客 ， 究 竟 不 同 顾客 各 自 
的 喜好 是 什么 ， 在 不 同 的 时 段 是 不 是 有 不 同 的 菜品 畅销 ， 当 把 几 种 不 同 的 菜品 组 合 在 一 起 推出 时 是 不 是 能 够 得 到 更 好 的 效果 ， 未 来 一 段 时 间 菜品 原材料 应 该 采购 多 少 .…. 


T 餐 饮 的 经 营 者 想 尽 快 地 解决 这 些 疑 问 ， 使 自己 的 企业 更 加 符合 现 有 顾客 的 口味 ， 吸 引 更 多 的 新 顾客 ， 又 能 根据 不 同 的 情况 和 环境 转换 自己 的 经 营 策 略 。T 餐 饮 在 经 营 过 程 中 ， 通 过 分 析 历 史 数 据 ， 总 结 
出 一 些 行 之 有 效 的 经 验 : 


. 在 点 餐 过 程 中 ， 由 有 经 验 的 服务 员 根 据 顾客 特点 进行 菜品 推荐 ， 一 方面 可 提高 菜品 的 销量 ， 另 一 方面 可 减少 客户 点 餐 的 时 间 和 频率 ， 提 高 用 户 体验 ; 
. 根据 菜品 历史 销售 情况 ， 综 合 考虑 节假日 、 气 候 和 竞争 对 手 等 影响 因素 ， 对 菜品 销量 进行 预测 ， 以 便 餐 饮 企 业 提前 准备 原材料 ; 


` 定期 对 菜品 销售 情况 进行 统计 ， 分 类 统计 出 好 评 菜 和 差 评 菜 ， 为 促销 活动 和 新 菜品 推出 提供 支持 ; 


* 根据 就 餐 频率 和 金额 对 顾客 的 就 餐 行为 进行 评分 ， 筛 选 出 优质 客户 ， 定 期 回访 和 送 去 关怀 。 


上 述 措施 的 实施 都 依赖 于 企业 已 有 业务 系统 中 保存 的 数据 ， 但 是 目前 从 这 些 数据 中 获得 有 关 产 品 和 客户 的 特点 以 及 能 够 产生 价值 的 规律 更 多 地 依赖 于 管理 人 员 的 个 人 经 验 。 如 果 有 一 套 工 具 或 系统 ， 能 


够 从 业务 数据 中 自动 或 半自动 地 发 现 相 关 的 知识 和 解决 方案 ， 这 将 极 大 地 提高 企业 的 决策 水 平和 竞争 能 力 。 这 种 从 数据 中 “淘金 ”， 从 大 量 数据 (包括 文本 ) 中 挖掘 出 隐 含 的 、 未 知 的 、 对 决策 有 潜在 价值 
的 关系 、 模 式 和 趋势 ， 并 用 这 些 知识 和 规则 建立 用 于 决策 支持 的 模型 ， 提 供 预 测 性 决策 支持 的 方法 、 工 具 和 和 过程， 就 是 数据 挖掘 ， 它 是 利用 各 种 分 析 工 具 在 大 量 数 据 中 寻找 其 规律 和 发 现 模 型 与 数据 之 间 关 
系 的 过 程 ， 是 统计 学 、 数 据 库 技术 和 人 工 智能 技术 的 综合 。 


这 种 分 析 方 法 可 避免 “人 治 ”的 随意 性 ， 避 免 企业 管理 仅 依 赖 个 人 领导 力 的 风险 和 不 确定 性 ， 实 现 精 细 化 营销 与 经 营 管理 。 


13 ”数据 挖掘 的 基本 任务 


数据 挖掘 的 基本 任务 包括 利用 分 类 与 预测 、 聚 类 分 析 、 关 联 规则 、 时 序 模 式 、 偏 差 检 测 、 智 能 推荐 等 方法 ， 帮 助 企业 提取 数据 中 蕴含 的 商业 价值 ， 提 高 企业 的 竞争 力 。 


对 餐饮 企业 而 言 ， 数 据 挖掘 的 基本 任务 是 从 餐饮 企业 采集 各 类 菜品 销量 、 成 本 单价 、 会 员 消费 、 促 销 活 动 等 内 部 数据 ， 以 及 天 气 、 节 假日 、 竞 争 对 手 以 及 周边 商业 氛围 等 外 部 数据 ; 之 后 利用 数据 分 析 
手段 ， 实 现 菜品 智能 推荐 、 促 销 效果 分 析 、 客 户 价 值 分 析 、 新 店 选 址 优化 、 热 销 /滞销 菜品 分 析 和 销量 趋势 预测 ;最 后 将 这 些 分 析 结 果 推 送 给 餐饮 企业 管理 者 及 有 关 服 务 人 员 ， 为 餐饮 企业 降低 运营 成 本 、 增 
加 盈利 能 力 、 实 现 精 准 营 销 、 策 划 促 销 活动 等 提供 智能 服务 支持 。 


14 ЧЫН ЫМ КЕ 
从 本 节 开 始 ， 将 以 餐饮 行业 的 数据 挖掘 应 用 为 例 来 详细 介绍 数据 挖掘 的 建 模 过 程 ， 如 图 1-1 所 示 。 
141 定义 挖掘 目标 


针对 具体 的 数据 挖掘 应 用 需求 ， 首 先 要 明确 本 次 的 挖掘 目标 是 什么 ”系统 完成 后 能 达到 什么 样 的 效果 ”因此 我 们 必须 分 析 应 用 领域 ， 包 括 应 用 中 的 各 种 知识 和 应 用 目标 ， 了 解 相关 领域 的 有 关 情 况 ， 熟 
悉 背 景 知 识 ， 弄 清 用户 需 求 。 要 想 充 分 发 挥 数 据 挖掘 的 价值 ， 必 须要 对 目标 有 一 个 清晰 明确 的 定义 ， 即 决定 到 底 想 干什么 。 


餐饮 、 前 厅 、 ”原材料 采购 、 菜 品 销量 、 ”菜品 智能 推荐 、 新 店 选 址 优化 、 提供 沫 品 知 能 推荐 、 新 后 
后 厨 等 部 门 访谈 ”客户 及 外 部 数据 收集 ”窗户 价值 分 析 和 销量 预测 等 模型 构建 ” 选 址 优化 和 销量 预测 等 服务 


目标 定义 数据 采集 数据 整理 构建 模型 模型 评价 模型 发 布 
* 任务 理解 * 建 模 抽 样 ° 数据 探索 * 模式 发 现 * 设 定 评 价 标准 ”。， 模 型 部 署 


图 1-1 餐饮 行业 数据 挖掘 建 模 过 程 
针对 餐饮 行业 的 数据 挖掘 应 用 ， 可 定义 如 下 挖掘 目标 : 
. 实现 动态 菜品 智能 推荐 ,帮助 顾客 快速 发 现 自己 感 兴 趣 的 菜品 ， 同 时 确保 推荐 给 顾客 的 菜品 也 是 餐饮 企业 所 期 望 的 ， 实 现 餐 饮 消费 者 和 和 餐饮 企业 的 双赢; 


对 餐饮 客户 进行 细 分 ， 了 解 不 同 客户 的 贡献 度 和 消费 特征 ， 分 析 哪 些 客户 是 最 有 价值 的 ， 哪 些 是 最 需要 关注 的 ， 对 不 同 价 值 的 客户 采取 不 同 的 营销 策略 ， 将 有 限 的 资源 投放 到 最 有 价值 的 客户 身上 ， 


实现 精准 化 营销 ; 
" 基于 菜品 历史 销售 情况 ， 综 合 考 虑 节假日 、 气 候 和 竞争 对 手 等 影响 因素 ， 对 菜品 销量 进行 趋势 预测 ， 方 便 餐 饮 企业 准备 原材料 ; 


. 基于 餐饮 大 数据 ， 优 化 新 店 选 址 ， 并 对 新 店 所 在 位 置 的 潜在 顾客 口味 偏好 进行 分 析 ， 以 便 及 时 进行 菜 式 调整 。 


1.4.2 数据 取样 


在 明确 需要 进行 数据 挖掘 的 目标 后 ， 接 下 来 就 需要 从 业务 系统 中 抽取 出 一 个 与 挖掘 目标 相关 的 样本 数据 子 集 。 抽 取 数 据 的 标准 ， 一 是 相关 性 ， 二 是 可 靠 性 ， 三 是 有 效 性 ， 而 不 是 动用 全 部 企业 数据 。 通 
过 数据 样本 的 精 选 ， 不 仅 能 减少 数据 处 理 量 ， 节 省 系统 资源 ， 而 且 使 我 们 想 要 寻找 的 规律 性 更 加 突显 出 来 。 


进行 数据 取样 ， 一 定 要 严 把 质量 关 。 在 任何 时 候 都 不 能 忽视 数据 的 质量 ， 即 使 是 从 一 个 数据 仓库 中 进行 数据 取样 ， 也 不 要 忘记 检查 其 质量 如 何 。 因 为 数据 挖掘 是 要 探索 企业 运作 的 内 在 规律 性 ， 原 始 数 
据 有 误 ， 就 很 难 从 中 探索 规律 性 。 铬 真 的 从 中 探索 出 了 “规律 性 ”， 青 依 此 去 指导 工作 ， 则 很 可 能 会 造成 误导 。 若 从 正在 运行 的 系统 中 进行 数据 取样 ， 更 要 注意 数据 的 完整 性 和 有 效 性 。 


衡量 取样 数据 质量 的 标准 包括 : 


1) 资料 完整 无 缺 ， 各 类 指标 项 齐全 ，; 


2) 数据 准确 无 误 ， 反 映 的 都 是 正常 (而 不 是 异常 ) 状态 下 的 水 平 。 

对 获取 的 数据 ， 可 再 从 中 作 抽 样 操作 。 抽 样 的 方式 是 多 种 多 样 的 ， 常 见 的 有 : 

“ 随机 抽样 : 在 采用 随机 抽样 方式 时 ， 数 据 集 中 的 每 一 组 观测 值 都 有 相同 的 被 抽样 的 概率 。 如 按 10% 的 比例 对 一 个 数据 集 进行 随机 抽样 ， 则 每 一 组 观测 值 都 有 10% 的 机 会 被 取 到 。 
. 等 距 抽样 : 如 按 5% 的 比例 对 一 个 有 100 组 观测 值 的 数据 集 进行 等 距 抽 样 ， 则 有 : 100/5=20， 等 距 抽 样 方式 是 取 第 20、40、60、80 和 第 100 这 5 组 观测 值 。 


* 分 层 抽样 : 在 这 种 抽样 操作 时 ， 首 先 将 样本 总 体 分 成 若干 层次 (或 者 说 分 成 若干 个 子 集 ) 。 在 每 个 层次 中 的 观测 值 都 具有 相同 的 被 选用 的 概率 ， 但 对 不 同 的 层次 可 设 定 不 同 的 概率 。 这 样 的 抽样 结 
通常 具有 更 好 的 代表 性 ， 进 而 使 模型 具有 更 好 的 拟 合 精度 。 


' 从 起 始 顺 序 抽样 : 这 种 抽样 方式 是 从 输入 数据 集 的 起 始 处 开始 抽样 。 抽 样 的 数量 可 以 给 定 一 个 百分比 ， 或 者 直接 给 定 选 取 观 测 值 的 组 数 。 


' 分 类 抽样 : 在 前 述 几 种 抽样 方式 中 ， 并 不 考虑 抽取 样本 的 具体 取 值 。 分 类 抽样 则 依据 某 种 属性 的 取 值 来 选择 数据 子 集 ， 如 按 客户 名 称 分 类 、 按 地 址 区 域 分 类 等 。 分 类 抽样 的 选取 方式 就 是 前 面 所 述 的 
几 种 方式 ， 只 是 抽样 以 类 为 单位 。 


基于 1.4.1 节 定义 的 针对 餐饮 行业 的 挖掘 目标 ， 需 从 客户 关系 管理 系统 、 前 厅 管 理 系统 、 后 厨 管理 系统 、 财 务 管 理 系统 和 物资 管理 系统 抽取 用 于 建 模 和 分 析 的 餐饮 数据 ， 主 要 包括 : 
1) 餐饮 企业 信息 : 名 称 、 位 置 、 规 模 、 联 系 方式 ， 以 及 部 门 、 人 员 、 角 色 等 ; 

2) 餐饮 客户 信息 : 姓名 、 联 系 方式 、 消 费时 间 、 消 费 金额 等 ; 

3) 餐饮 企业 菜品 信息 : 菜品 名 称 、 菜 品 单价 、 菜 品 成 本 、 所 属 部 门 等 ; 

4) 菜品 销量 数据 : 菜品 名 称 、 销 售 日 期 、 销 售 金额 、 销 售 份 数 ; 

5) 原材料 供应 商 资料 及 商品 数据 : 供应 商 姓 名 、 联 系 方式 、 商 品名 称 ， 以 及 客户 评价 信息 ; 

6) 促销 活动 数据 : 促销 日 期 、 促 销 内 容 、 促 销 摘 述 ; 


7) 外 部 数据 : 如 天 气 、 节 假日 、 竞 争 对 手 以 及 周边 商业 氛围 等 。 


143 ”数据 探索 


前 面 所 叙述 的 数据 取样 ， 多 少 是 带 着 人 们 对 如 何 实现 数据 挖 握 目标 的 先 验 认识 进行 操作 的 。 当 我 们 拿 到 一 个 样本 数据 集 后 ， 它 是 否 达到 我 们 原来 设想 的 要 求 ， 其 中 有 没有 什么 明显 的 规律 和 趋势 ， 有 没 
有 出 现 从 未 设想 过 的 数据 状态 ;属性 之 间 有 什么 相关 性 ;它们 可 区 分 成 哪些 类 别 .……， 这 都 是 要 首先 探索 的 内 容 。 


对 所 抽取 的 样本 数据 进行 探索 、 审 核 和 必要 的 加 工 处 理 ， 是 保证 最 终 挖掘 模型 的 质量 所 必需 的 。 可 以 说 ， 挖 掘 模型 的 质量 不 会 超过 所 抽取 样本 的 质量 。 数 据 探 索 和 预 处 理 的 目的 是 保证 样本 数据 的 质 
量 ， 从 而 为 保证 模型 质量 打下 基础 。 


针对 1.4.2 节 采集 的 餐饮 数据 ， 数 据 探索 主要 包括 : 异常 值 分 析 、 缺 失 值 分 析 、 相 关 性 分 析 、 周 期 性 分 析 等 ， 有 关 介 绍 详 见 第 3 章 。 


144 数据 预 处 理 


当 采 样 数据 维度 过 大 时 ， 如 何 进行 降 维 处 理 、 缺 失 值 处 理 等 都 是 数据 预 处 理 要 解决 的 问题 。 


由 于 采样 数据 中 常常 包含 许多 含有 噪声 、 不 完整 ， 甚 至 不 一 致 的 数据 ， 对 数据 挖掘 所 涉及 的 数据 对 象 必须 进行 预 处 理 。 那 么 如 何 对 数据 进行 预 处 理 以 改善 数据 质量 ， 并 最 后 达到 完善 最 终 数 据 挖掘 结果 
的 目的 呢 ? 


针对 采集 的 餐饮 数据 ， 数 据 预 处 理 主要 包括 : 数据 筛选 、 数 据 变量 转换 、 缺 失 值 处 理 、 坏 数据 处 理 、 数 据 标准 化 、 主 成 分 分 析 、 属 性 选择 、 数 据 规 约 等 ， 有 关 介绍 详 见 第 4 章 。 


145 ”挖掘 建 模 


样本 抽取 完成 并 经 预 处 理 后 ， 接 下 来 要 考虑 的 问题 是 : 本 次 建 模 属于 数据 挖掘 应 用 中 的 哪 类 问题 (分 类 、 聚 类 、 关 联 规则 、 时 序 模式 或 者 智能 推荐 ) ， 选 用 哪 种 算法 进行 模型 构建 ? 


这 一 步 是 数据 挖掘 工作 的 核心 环节 。 针 对 餐饮 行业 的 数据 挖掘 应 用 ， 挖 掘 建 模 主 要 包括 基于 关联 规则 算法 的 动态 菜品 智能 推荐 、 基 于 聚 类 算法 的 餐饮 客户 价值 分 析 、 基 于 分 类 与 预测 算法 的 菜品 销量 预 
测 、 基 于 整体 优化 的 新 店 选 址 。 


以 菜品 销量 预测 为 例 ， 模 型 构建 是 对 菜品 历史 销量 ， 是 综合 了 节假日 、 气 候 和 竞争 对 手 等 采样 数据 轨迹 的 概括 ， 它 反映 的 是 采样 数据 内 部 结构 的 一 般 特征 ， 并 与 该 采样 数据 的 具体 结构 基本 吻合 。 模 型 
的 具体 化 就 是 菜品 销量 预测 公式 ， 公 式 可 以 产生 与 观察 值 有 相似 结构 的 输出 ， 这 就 是 预测 值 。 
146 ”模型 评价 

从 1.4.5 节 的 建 模 过 程 中 会 得 出 一 系列 的 分 析 结 果 ， 模 型 评价 的 目的 之 一 就 是 从 这 些 模 型 中 自动 找 出 一 个 最 好 的 模型 ， 另 外 就 是 要 根据 业务 对 模型 进行 解释 和 应 用 。 


对 分 类 与 预测 模型 和 聚 类 分 析 模 型 的 评价 方法 是 不 同 的 ， 具 体 评价 方法 详 见 5.1 节 和 5.2 节 介绍 。 


15 ”党 用 数据 挖掘 建 民工 具 

数据 挖掘 是 一 个 反复 探索 的 过 程 ， 只 有 将 数据 挖掘 工具 提供 的 技术 和 实施 经 验 与 企业 的 业务 逻辑 和 需求 紧密 结合 ， 并 在 实施 过 程 中 不 断 地 磨合 ， 才 能 取得 好 的 效果 。 下 面 简单 介绍 几 种 常用 的 数据 挖掘 
建 模 工 具 。 

(1) R 


R 是 一 种 为 统计 计算 和 图 形 显示 而 设计 的 语言 环境 ， 是 贝尔 实验 室 的 Rick Becker. John Chambers 和 Allan Wilks 开 发 的 S 语 言 的 一 种 实现 。 在 S 语 言 源 代 码 的 基础 上 ，1995 年 Auckland 大 学 的 Robert 
Gentleman 和 Ross Ilhaka 编 写 了 一 套 能 执行 S 语 言 的 软件 ， 并 将 该 软件 的 源 代码 全 部 公开 ， 这 就 是 R 软 件 的 雏形 ， 其 命令 被 统称 为 R 语 言 。 用 户 可 以 自己 设计 相应 的 程序 ， 并 且 可 以 做 成 拓展 包 发 布 。 其 他 的 


使 用 者 可 以 根据 需要 下 载 并 加 载 软 件 包 ， 从 而 非常 方便 地 拓展 R 的 内 容 。 
(2) Python 


Python 是 一 门 简单 易学 且 功 能 强大 的 编程 语言 。 它 拥有 高 效 的 高 级 数据 结构 ， 并 且 能 够 用 简单 而 又 高 效 的 方式 进行 面向 对 象 编程 。Python 优 雅 的 语法 和 动态 类 型 ， 表 结合 它 的 解释 性 ， 使 其 在 大 多 数 
平台 的 许多 领域 成 为 编写 脚本 或 开发 应 用 程序 的 理想 语言 。 


(3) SAS Enterprise Miner 


Enterprise Miner (ЕМ) 是 SAs 推 出 的 一 个 集成 的 数据 挖掘 系统 ， 人 允许 使 用 和 比较 不 同 的 技术 ， 同 时 还 集成 了 复杂 的 数据 库 管理 软件 。 它 的 运行 方式 是 通过 在 一 个 工作 空间 (workspace) 中 按照 一 定 


(4) IBM SPSS Modeler 


IBM SPSS Modeler 原 名 Clementine，2009 年 被 |BM 收 购 后 对 产品 的 性 能 和 功能 进行 了 大 幅度 改进 和 提升 。 它 封装 了 最 先进 的 统计 学 和 数据 挖掘 技术 ， 来 获得 预测 知识 并 将 相应 的 决策 方案 部 署 到 现 有 
的 业务 系统 和 业务 过 程 中 ， 从 而 提高 企业 的 效益 。1BM SPSS Modeler 拥 有 直观 的 操作 界面 、 自 动 化 的 数据 准备 和 成 熟 的 预测 分 析 模 型 ， 结 合 商业 技术 可 以 快速 建立 预测 性 模型 。 


(5) SQL Server 


Microsoft 的 SQL Server 中 集成 了 数据 挖掘 组 件 一 一 Analysis Servers， 借 助 SQL Server 的 数据 库 管理 功能 ， 可 以 无 颖 地 集成 在 SQL Server 数 据 库 中 。 在 SQL Server 2008 中 提供 了 决策 树 算法 、 聚 类 分 
析 算 法 、Naive Bayes 算 法 、 关 联 规则 算法 、 时 序 算法 、 神 经 网 络 算法 、 线 性 回归 算法 等 9 种 常用 的 数据 挖掘 算法 。 但 是 其 预测 建 模 的 实现 是 基于 SQL Server 平 台 的 ， 平 台 移 植 性 相对 较 差 。 


(6) МАТІАВ 


MATLAB (Matrix Laboratory， 和 矩阵 实验 室 ) 是 美国 Mathworks 公 司 开发 的 应 用 软件 ， 具 备 强大 的 科学 及 工程 计算 能 力 ， 它 不 但 具有 以 矩阵 计算 为 基础 的 强大 数学 计算 能 力 和 分 析 功 能 ， 而 且 还 具有 
丰富 的 可 视 化 图 形 表现 功能 和 方便 的 程序 设计 能 力 。MATLAB 并 不 提供 一 个 专门 的 数据 挖掘 环境 ， 但 它 提供 非常 多 的 相关 算法 的 实现 函数 ， 是 学 习 和 开发 数据 挖掘 算法 的 很 好 选择 。 


(7) WEKA 


WEKA (Waikato Environment for Knowledge Analysis) 是 一 款 知名 度 较 高 的 开源 机 器 学 习 和 数据 挖掘 软件 。 高 级 用 户 可 以 通过 java 编程 和 命令 行 来 调用 其 分 析 组 件 。 同 时 ，WEKA 也 为 普通 用 户 提 
供 了 图 形 化 界面 ， 称 为 WEKA Knowledge Flow Environment 和 WEKA Explorer， 可 以 实现 预 处 理 、 分 类 、 聚 类 、 关 联 规则 、 文 本 挖掘 、 可 视 化 等 。 


(8) TipDM 


TipDM (顶尖 数据 挖 握 平台 ) 使 用 Java 语 言 开 发 ， 能 从 各 种 数据 源 获 取 数 据 ， 建 立 多 种 数据 挖掘 模型 。TipDM 目前 已 集成 数 十 种 预测 算法 和 分 析 技 术 ， 基 本 覆盖 了 国外 主流 挖掘 系统 支持 的 算法 。 
TipDM 支 持 数据 挖掘 流程 所 需 的 主要 过 程 : 数据 探索 (相关 性 分 析 、 主 成 分 分 析 、 周 期 性 分 析 ) ;数据 预 处 理 (属性 选择 、 特 征 提取 、 坏 数据 处 理 、 空 值 处 理 ) ; 预测 建 模 (参数 设置 、 交 叉 验 证 、 模 型 训 
练 、 模 型 验证 、 模 型 预测 ) ;， 聚 类 分 析 、 关 联 规则 挖掘 等 一 系列 功能 。 


1.6 小 结 


本 章 从 一 个 知名 餐饮 企业 经 营 过 程 中 存在 的 困惑 出 友 ， 引 出 数据 挖掘 的 概念 、 基 本 任务 、 建 模 过 程 及 常用 工具 。 


如 何 帮助 企业 从 数据 中 洞察 商机 ， 提 取 价 值 ， 这 是 现 阶段 几乎 所 有 企业 都 关心 的 问题 。 通 过 发 生 在 身边 的 案例 ， 由 浅 入 深 地 引出 深奥 的 数据 挖掘 理论 ， 让 读者 在 不 知 不 觉 中 感悟 到 数据 挖掘 的 非凡 魅 
力 ! 本 案例 同时 也 贯穿 到 后 续 第 3 章 至 第 5 章 的 理论 介绍 中 。 


第 2 草 ”R 语 言 简介 

R 语 言 是 一 种 为 统计 计算 和 图 形 显示 而 设计 的 语言 环境 ， 是 贝尔 实验 室 (Bell Laboratory) 的 Rick Becker, John Chambers 和 Allan Wilks 开 发 的 语言 的 一 种 实现 ， 提 供 了 一 系列 统计 和 图 形 显示 工 
具 。 它 是 一 套 开 源 的 数据 分 析 和 解决 方案 ， 由 一 个 庞大 目 活跃 的 全 球 性 研究 型 社区 维护 。 它 具有 下 列 优势 : 

1) 作为 一 个 免费 的 统计 软件 ，R 可 运行 于 多 种 平台 之 上 ， 包括 Windows、UNIX、MacOS 和 和 Linux。 

2) R 可 以 轻松 地 从 各 种 类 型 的 数据 源 导入 数据 ， 包 括 文本 文件 、 数 据 库 管 理 系 统 、 统 计 软 件 ， 乃 至 专门 的 数据 仓库 。 它 同样 可 以 将 数据 输出 并 写 入 到 这 些 系统 中 。 

2) 具有 较 高 的 开放 性 ，R 不 仅 提 供 功 能 丰富 的 内 置 函 数 供用 户 调 用 ， 也 人 允许 用 户 编写 自 定 义 函 数 来 扩充 功能 。 

4) R 拥 有 顶尖 水 准 的 制图 功能 。 如 果 希 望 复杂 数据 可 视 化 ， 那 么 R 拥 有 最 全 面 且 最 强大 的 一 系列 可 用 功能 。 


R 是 一 个 体系 庞大 的 应 用 软件 ， 主 要 包括 核心 的 R 标 准 包 和 各 专业 领域 的 其 他 包 。R 在 数据 分 析 、 数 据 挖掘 领域 具有 特别 优势 ， 本 书 针对 数据 分 析 和 挖掘 相关 的 内 容 采 用 原理 加 实战 的 方式 对 R 相 天 函数 进 
行 介绍 。 本 章 主要 对 R 软 件 的 安装 ， 一 些 数据 分 析 和 挖 所 相关 的 包 ， 以 及 常用 函数 的 使 用 进行 简单 介绍 。 后 续 的 原理 章节 中 ， 首 先 介 绍 数据 挖掘 分 析 的 相关 原理 ， 然 后 针对 每 个 原理 选取 R 相 关 遂 数 进行 实战 
演示 ， 使 读者 不 仅 对 数据 挖 所 相关 原理 有 比较 清晰 的 认识 ， 同 时 可 以 使 用 本 书 提供 的 R 相 关 实 例 来 切实 地 感受 相关 数据 挖 所 原理 的 精髓 。 


21 В 


本 书 使 用 的 R 版 本 为 R 3.2.0。 根 据 操作 系统 不 同 ， 可 选择 安装 64 位 或 32 位 版 本 。 安 装 时 直接 运行 下 载 的 R-3.2.0-win.exe。R 可 以 在 其 主页 (http://www.r-project.org/) 上 的 R 综 合资 料 网 
(Comprehensive R Archive Network, CRAN) 获得 。Linux、Mac OS X 和 Windows 都 有 相应 编译 好 的 二 进 制版 本 ， 根 据 你 所 选择 平台 的 安装 说 明 进 行 安装 即 可 。 


安装 好 R 后 ， 点 击 安装 目录 中 bin 目 录 下 的 Rgui.exe 启 动 R， 打 开 如 图 2-1 所 示 的 界面 。 


| К version 3.2.0 (2015-04-16) -- "Full of Ingredients" 
Copyright (С) 2015 The R Foundation for Statistical Computing 
Platform: 3í3386-wë4-mingug32/i3B6 (32-bit) 


R is free software and comes with ABSOLUTELY НО WARRANTY. 
You are welcome to redistribute it under certain conditions. 
Type "licem=e[)' or "11сепсе{]" for distribution details. 


R їз a collaborative project with many contributors. 
Type 'contributors(}' for more information and 
'icacion()'" on how to cite R ог R packages in publications. 


Type *йдешс(}* for some demos, 'help()' for on=line help, ог 
'їпе1р.зїаг()'! for ап HTHL browser interface to help. 


Type 'а()' то quit R. 


>| 


图 2-1 R 3.2.0 初 始 界 面 


为 了 方便 使 用 R， 可 使 用 免费 的 图 形 界面 编辑 器 RStudio， 可 http://www.rstudio.com/products/rstudio/download/ 从 中 下 载 ， 请 根据 本 机 操作 系统 选择 系统 支持 版 本 自行 下 载 安 装 。 安 装 RStudio 
后 ， 可 以 选择 从 安装 目录 或 者 “开始 ”菜单 栏 中 启动 。 


22 ”R 使 用 入 门 


22.1 ”R 操 作 界面 


R 软 件 的 界面 与 其 他 编程 软件 相 类 似 ， 是 由 一 些 菜单 和 快捷 按钮 组 成 ， 如 图 2-2 所 示 。 快 捷 按 钮 下 面 的 窗口 便 是 命令 输入 窗口 ， 它 也 是 部 分 运算 结果 的 输出 窗口 ， 有 些 运算 结果 (如 图 形 ) 则 会 在 新 建 的 
窗口 中 输出 。 主 窗口 上 方 的 一 些 文字 是 刚 运 行 R 时 出 现 的 一 些 说 明和 指引 ， 文 字 下 的 “>” 符 号 便 是 R 的 命令 提示 符 ， 在 其 后 可 输入 命令 。R 一 般 采 用 交互 式 工作 方式 ， 在 命令 提示 符 后 输入 命令 ， 回 车 后 便 会 
输出 计算 结果 。 当 然 也 可 将 所 有 的 命令 建立 成 一 个 文件 ， 运 行 这 个 文件 的 全 部 或 部 分 来 执行 相应 的 命令 ， 从 而 得 到 相应 的 结果 。 


中 Ф | рі: 


R version 3.2.0 (2015-04-16) -- "Full of Ingredients" 
1 Copyright (C) 2015 The R Foundation for Statistical Computing 
Platform: 1386-ыб4-т1їпуч32/1386 (32-bit) 


R із free software and cames with ABSOLUTELY NO WARRANTY. 
Үс аге welcome со redistribute it under сеггаіп conditions. 
Type "1їсепзе{]" or 'licence{}" Eor distribution details. 


R ia a collaborative project with many contributors. 
| Type 'contributors{}' for more information and 
'cicacion()" on how to cite R ог R packages in publications. 


Түре 'йешо()* for some demos, 'help()' for оп-1іпе help, ог 
"Һе1р.зтатг ()'* for an HIML browser interface то help. 
Type "a[)" то muit R. 


图 2-2 ”有 R3.2.0 操 作 界 面 


菜单 栏 如 图 2-2 中 标号 为 1 的 窗口 所 示 ， 位 于 工作 环境 的 最 上 方 。File (文件 ) 菜单 可 以 实现 以 下 功能 : 输入 R 代 码 、 建 立新 的 程序 脚本 、 打 开 程 序 脚本 、 显 示 文 件 、 载 入 工作 空间 、 保 存 工作 空间 、 载 入 
历史 、 保 存 历史 、 改 变 当 前 目录 、 打 印 、 保 存 到 文件 以 及 退出 ; Edit (编辑 ) 菜单 可 以 实现 复制 、 粘 贴 、 清 除 控制 侣 和 数据 编辑 等 功能 ; View (WE) 菜单 可 以 选择 是 否 显示 工具 栏 ; Misc (其 他 ) 菜单 可 
以 实现 中 断 目 前 计算 、 缓 冲 输出 及 列 出 目标 对 象 等 功能 ; Packages (程序 包 ) 菜单 可 以 实现 载 入 程序 包 、 设 定 CRAN 镜 像 、 安 装 以 及 更 新 程序 包 等 功能 ; Windows (窗口 ) 菜单 可 以 选择 将 所 有 窗口 层 蔷 或 


者 平 铺 ; Help (帮助 ) 菜单 提供 R 的 常见 问答 和 帮助 途径 。 当 执行 不 同 的 窗口 操作 时 ， 莱 单 的 内 容 就 会 发 生 不 同 的 变化 。 如 打开 R 文 件 或 一 个 编写 好 的 R 函 数 后， 菜单 栏 就 会 缺失 View (视图 ) 、Misc (其 
他 ) 两 个 菜单 栏 选项 。 


工具 栏 如 标号 为 2 的 窗口 所 示 ， 从 左 人 至 右 可 以 依次 进行 打开 程序 脚本 、 载 入 映像 、 保 人 存 映像 、 复 制 、 粘 贴 、 复 制 和 粘贴 、 终 止 目前 计算 以 及 打印 的 操作 。 当 打开 R 文 件 或 一 个 编写 好 的 R 函 数 时 ， 工 具 栏 
会 发 生 相应 的 变化 ， 此 时 的 快捷 按钮 从 左 人 至 右 依 次 为 打开 程序 脚本 、 保 人 存 映像 、 运 行当 前 行 代码 或 所 选 代码 、 返 回 主 界面 以 及 打印 。 


命令 窗口 如 标号 为 3 的 窗口 所 示 ， 是 R 进 行 工 作 的 窗口 ， 也 是 实现 R 各 种 功能 的 窗口 。 其 中 的 “> ”是 命令 提示 符 ， 表 示 R 处 于 准备 编辑 的 状态 ， 用 户 可 以 直接 在 命令 提示 符 后 输入 命令 语句 ， 
按 “Enter” 键 执行 。 


2.2.2 ”RStudio 窗 口 介绍 


RStudio 的 启动 界面 如 图 2-3 所 示 ， 由 代码 编辑 、 命 令 控制 台 、 资 源 栏 和 其 他 栏 组 合 而 成 。 
91-1216 ае. 


代码 编辑 | Е 159 obs. of 18 variables 


|е Data Import/Fxpert = | 


R Data Import/Export 
s -一 — a Table of Contents 
Console «і: Program Рие Еау > 


Acknowledgements 
Ttodaction Hab 
1.1 Imports i 
1.1.1 Encodings 
1.2 Export to text files 
13 XML 
2 Spreadsheet-like data 
2 | Vargtions on read. cable 
2.2 Fmed-width-format files 
2.3 Data Interchange Format (DIF) 
2.4 Using scan directły 
2.5 Re-shaping data 
2.6 Flat contingency tables 


图 2-3 RStudio 启 动 界面 


代码 编辑 栏 可 以 进行 代码 的 编辑 ， 以 及 打开 R 脚 本 或 者 txt 广 本。 创建 新 的 文件 可 以 从 File 一 New 里 选择 ， 打 开 文 件 可 以 从 目录 File 一 Open 或 者 从 Open Recent 目 录 里 打开 最 近 的 文件 。 运 行文 件 可 以 选 
择 相应 的 代码 ， 点 击 Run 按 钮 。 


命令 控制 台 : 代码 运行 后 ， 控 制 台 会 显示 相应 的 代码 或 者 返回 结果 。 也 可 以 在 命令 控制 台 单独 输入 命令 ， 和 R 的 命令 模式 相同 。 


其 他 栏 是 天 于 R 使 用 方面 的 显示 栏 。 可 以 在 Packages 目 录 下 进行 R 包 的 安装 以 及 加 载 ( 包 安 装 好 后 ， 并 不 可 以 直接 使 用 ， 如 果 需 要 使 用 包 ， 必 须 在 每 次 使 用 前 将 包 加 载 到 内 存 中 ， 可 以 直接 选择 包 或 者 
在 控制 台 输入 library (раскаде пате) MS) 。 在 Help 目 录 下 有 关于 R 相 关 函 数 或 者 命令 的 帮助 。 在 Plot 目 录 下 会 显示 图 形 相关 方面 的 描述 。 


223 R 常 用 操作 
(1) help 
功能 : Pe(tRPER2VFIR3SCIFRJfFEZSTUSB), 
在 命令 窗口 输入 help (HAE) ， 或 ” 国 数 名 ， 按 “Enter” 键 执行 ， 或 者 在 R 的 帮助 (Help) 菜单 下 的 Search Help 弹 出 框 输入 函数 名 ， 都 可 打开 帮助 浏览 器 。 帮 助 浏览 器 是 R 自 带 的 帮助 系统 ， 是 学 


习 R 的 一 个 非常 有 用 的 工具 。 例 如 ， 要 了 解 plot 国 数 ， 可 以 在 命令 窗口 输入 help (plot) ， 或 ? plot， 按 “Enter” 键 执行 ， 或 者 在 Search Help 弹 出 框 中 输入 plot， 如 图 2-4 所 示 ， 即 可 获得 plot 消 数 的 使 用 
帮助 。 


plot {graphics } R Documentation A 
Generic X-Y Plotting 
Description 


Generic function for plotting of R objects. For more details about the graphical parameter arguments, see par. 


For simple scatter plots, plot .default will be used. However, there are plot methods tor many R objects, 
including functions, data. frames, density objects, etc. Use methods (plot) and the documentation for these. 


Usage 
plot (х, у, „.. 
Arguments 


х те coordinates of points ш the plot. Alternatively, a single plotting structure, function or any R object with а 
plot method can be provided. 

y they coordinates of points in the plot, optional if x 15 an appropriate structure 

- *+ Arguments to be passed to methods, such as graphical parameters (see par). Many methods will accept the 
following arguments: 


түбе 


2-4 有 帮助 浏览 器 


使 用 帮助 中 主要 包括 6 部 分 内 容 : Description (函数 说 明 ) 部 分 摘 述 函数 的 主要 功能 ; Usage (用 法 ) 部 分 给 出 了 plot 函 数 的 调用 方法 ; Arguments (参数 ) 部 分 给 出 输入 参数 的 详细 解释 ， 包 括 输入 
参数 的 取 值 范围 、 数 据 格式 等 ; Details (详情 ) 部 分 给 出 了 和 该 函数 相关 的 信息 ; See Also (其 他 ) 部 分 则 提供 了 与 该 函数 相关 的 其 他 函数 的 链接 ;Examples (例子 ) 部 分 给 出 了 plot 函 数 的 常用 例子 ， 用 
户 可 以 直接 运行 示例 程序 得 到 结果 ， 得 到 对 该 函数 的 一 个 直观 的 印象 。 有 些 函 数 的 帮助 文档 还 包括 : Value (输出 参数 ) 部 分 给 出 了 输出 参数 的 详细 描述 ， 类 似 输入 参数 ; References (参考 文献 ) 部 分 给 
出 了 有 关 学 者 对 该 函数 的 研究 文献 。 


使 用 R 的 帮助 系统 是 一 种 快速 学 习 和 掌握 R 的 有 效 方 法 。 下 面 以 绘制 一 个 给 定 的 时 序 y 的 时 序 图 为 例 进行 说 明 。R 中 最 基本 的 绘图 命令 是 plot， 我 们 在 帮助 系统 中 查找 plot， 查 看 其 基本 语法 ， 找 到 和 自己 
需求 相关 的 语法 ， 这 里 使 用 plot (х, y) 语法 即 可 。 接 下 来 查看 其 语法 详细 解释 ， 由 于 这 里 的 y 是 一 个 时 序 向 量 ， 直 接 调用 即 可 。 然 后 编写 脚本 代码 ， 运 行程 序 ， 即 可 得 到 所 要 的 时 序 图 。 当 然 在 查看 完 语法 
的 详细 解释 后 还 可 以 查看 其 示例 程序 ， 直 接 复制 其 代码 片段 到 命令 窗口 执行 ， 查 看 结果 。 这 样 就 会 不 单单 对 plot 函 数 停留 在 简单 理解 的 水 平 上 。 最 后 ， 针 对 所 作 的 时 序 图 ， 如 果 需 要 进一步 调整 ， 如 设置 标 
题 、x 轴 、y 轴 等 信息 ， 还 可 以 在 See Also (其 他 ) 里 面 查询 到 相关 的 函数 。 


(2) Ctrl+L 

功能 : 清除 命令 窗 中 的 所 有 显示 内 容 。 

(3) rm (list=ls () ) 

功能 : 清除 R 工 作 空 间 中 的 内 存 变 量 。 

一 般 利用 rm (list=ls () ) 命令 与 gc () 命令 ,清除 内 存 变量 并 释放 内 存 空间 。 

(4) install.packages, library 

功能 : install.packages () 用 来 下 载 和 安装 包 ; library () 函数 不 仅 可 以 显示 库 中 有 哪些 包 ， 还 可 以 载 入 所 下 载 的 包 ， 进 而 在 会 话 中 使 用 包 。 

(5) getwd. setwd 

功能 : 获取 或 者 设置 当前 工作 目录 的 位 置 。 

(6) save. load 

功能 : save 将 R 工 作 空间 中 的 指定 对 象 保 存 到 指定 的 文件 中 ，load 从 磁盘 文件 中 读 取 一 个 工作 空间 到 当前 会 话 中 。 

(7) read.table. write.table. read.csv. write.csv 

功能 : read.table、read.csv 读 取 EXCEL、TXT 或 者 CSV 文 件 到 当前 工作 空间 ; write.table、write.csv 把 当前 工作 空间 的 数据 写 入 到 EXCEL、TXT 或 者 CSV 文 件 中 。 
(8) odbcConnect. sqlFetch, sqlQuery 

功能 : odbcConnect 建 立 一 个 到 ODBC 数 据 库 的 连接 ; sqlFetch 读 取 ODBC 数 据 库 中 的 某 个 表 到 R 的 一 个 数据 框 中 ; sqlQuery 向 ODBC 数 据 库 提交 一 个 查询 并 返回 结果 。 


第 一 步 是 针对 你 的 系统 和 数据 库 类 型 安装 和 配置 合适 的 ODBC 驱 动 一 一 它们 并 不 是 R 的 一 部 分 。 针 对 选择 的 数据 库 安装 并 配置 好 驱动 后 ， 请 安装 RODBC 包 。R 通 过 RODBC 包 访问 一 个 数据 库 的 示例 程 
序 ， 如 代码 清单 2-1 所 示 。 


代码 清单 2-1 ”R 通 过 RODBC 包 访问 数据 库 示 例 程序 


install.packages ("RODBC") # 安 装 RODBC 包 

library (RODBC) # 载 入 RODBC 包 

mycon<-odbcConnect ("mydsn", uid="user", pwd="rply") 

# 通 过 一 个 数据 源 名 称 (mydsn) 和 用 户 名 (user) 以 及 密码 (YP1Y， 如 果 没 有 设置 ， 可 以 直接 忽略 ) 打开 了 一 个 ODBC 数 据 库 连接 
data (USArrests) 

# 将 R 自 带 的 “USArrests” 表 写 进 数据 库 里 


ме 


sqlSave (mycon, USArrests, rownames="state", append=TRUE 
# 将 数据 流 保存 ， 这 时 打开 SQL Server 就 可 以 看 到 新 建 的 USArrests 表 
rm (USArrests) 

# 清 除 USArrests 变 量 

sqlFetch (mycon, "USArrests" , rownames="state") 

# 输 出 USArrests 表 中 的 内 容 
sqlQuery (mycon, "select *from USArrests") 
# 对 USArrests 表 执行 了 SQL 语 句 sSelect， 并 将 结果 输出 
sqlDrop (channel, "USArrests") 

# 删 除 USArrests 表 

close (mycon) 

# 关 闭 连 接 


* 代 码 详 见 : 示例 程序 /code/database_example.R 
(9) source、 sink 


功能 : source (“filename”) 可 在 当前 会 话 中 执行 一 个 脚本 ;sink (“filename”) 将 输出 重 定向 到 文件 filename 中 。 上 默认 情况 下 ， 如 果 文件 已 经 存在 ， 则 它 的 内 容 将 被 覆盖 ;使 用 参数 
append=TRUE 可 以 将 文本 追加 到 文件 后 ; 参数 split=TRUE 可 将 输出 同时 发 送 到 屏幕 和 输出 文件 中 。 不 加 参数 调用 命令 sink () 将 仅 向 屏幕 返回 输出 结果 。 


(10) plot 
功能 : 画图 ， 可 以 设置 参数 进行 定制 的 图 像 绘制 。 例 如 ， 使 用 代码 清单 2-2 可 以 实现 读 取 Excel 的 时 间 序 列 数 据 ， 然 后 进行 定制 作 图 |。 
代码 清单 2-2 ”定制 作 图 


++ W T AE ja] 

# 把 “数据 及 程序 ”文件 夹 复制 到 E 盘 下 ， 再 用 setwq 设 置 工作 空间 
setwd ("F: /数据 及 程序 /chapter2/ 示 例 程序 ") 

# 读 入 数据 

data=read.csv ("./data/time series.csv", header=T) 

# 定 制作 图 
png (file="./tmp/myplot.png") # 图 片 输出 为 ENG 文件 

plot (data [, 1] , data [, 2] , type="b", col="red") ; ё А-ошж, ёё, 
title (таіп=" 8 8] Д 7) 9", xlab="time", у1ар="Веѕропѕе") 

dev.off () 


и, 


* 代 码 详 见 : 示例 程序 /code/cust_plot.R 


2.3”R 数 据 分 析 包 

R 包 主要 包含 的 类 别 有 空 间 数据 分 析 类 、 机 器 学 习 与 统计 学 习 类 、 多 元 统计 类 、 药 物 动 力学 数据 分 析 类 、 计 量 经 济 类 、 金 融 分 析 类 、 并 行 计算 类 、 数 据 库 访问 类 。 各 类 别 都 有 相应 的 R 包 来 实现 其 功能 。 
例如 ， 机 器 学 习 与 统计 学 习 类 别 就 包含 实现 分 类 、 聚 类 、 关 联 规则 、 时 间 序 列 分 析 等 功能 的 R 包 。 

R 在 数据 挖掘 领域 也 提供 了 足够 的 支持 ， 如 分 类 、 聚 类 、 天 联 规则 挖掘 等 ， 通 过 加 载 不 同 的 R 包 就 能 够 实现 相应 的 数据 挖掘 功能 ， 如 表 2-1 所 示 。 


表 2-1 及 数据 挖掘 相关 包 


功能 函数 及 加 载 包 
nnet() 需要 加 载 BP 神经 网 络 nnet 包 ; randomForest() 需 要 加 载 随 机 森林 randomForest £J; svm() 需 
要 加 载 e1071 包 ; tree() 需 要 加 载 СКАТ 决策 树 tree 包 等 
聚 类 hclust() ŽL, kmeans() 函数 
关联 规则 apriori ( ) 需要 加 载 arules 包 
时 间 序 列 arima( ) 需要 加 载 forecast, Iseries {4 


分 类 是 数据 挖掘 领域 研究 的 主要 问题 之 一 ， 分 类 器 作为 解决 问题 的 工具 一 直 是 研究 的 热点 。 常 用 的 分 类 器 有 神经 网 络 、 随 机 森林 、 支 持 向 量 机 、 决 策 树 等 ， 这 些 分 类 器 都 有 各 自 的 性 能 特点 。 


nnet 包 执行 单 隐 层 前 馈 神经 网 络 ，nnet () 函数 涉及 的 主要 参数 有 隐 层 节点 数 (size), PARNE (weights) 、 最 大 迭代 次 数 (maxit) 等 ， 为 了 达到 最 好 的 分 类 效果 ， 这 些 都 是 需要 用 户 根据 经 验 或 
者 不 断 地 尝试 来 确定 的 ;随机 森林 分 类 器 利用 基于 Breiman 随 机 森林 理论 的 R 语 言 软件 包 randomForest 中 的 randomForest () 函数 来 实现 ， 需 要 设置 三 个 主要 的 参数 : 森林 中 决策 树 的 数量 (ntree) 、 内 
部 节点 随机 选择 属性 的 个 数 (mtry) 及 终 节 点 的 最 小 样本 数 (nodesize) 。 


支持 向 量 机 分 类 器 采用 R 语 言 软件 包 e1071 实 现 ， 该 软件 包 是 以 台湾 大 学 林 智 仁 教授 的 LIBSVM 源 代码 为 基础 开发 的 。svm () 函数 提供 了 R 与 LIBSVM 的 接口 ， 涉 及 的 参数 主要 有 类 型 (type, "С" 实 
现 支持 向 量 机 分 类 ，“eps-regression” 实 现 支 持 向 量 机 回归 ) 、 核 函数 (kernel) 。SVM 包 含 了 4 种 主要 的 核 函 数 : 线性 核 国 数 (Linear) 、 多 项 式 核 水 数 (Polynomial) 、 径 向 基 核 水 数 (RBF) 以 及 
Sigmoid 核 函数 。 一 般 情况 下 会 选择 径 向 基 核 函数 ， 这 主要 源 于 : 其 一 ， 线 性 核 函数 只 能 处 理 线性 关系 ， 且 被 证 明 是 径 向 基 核 函数 的 一 个 特例 ; 其 二 ，Sigmoid 核 函数 在 某 些 参数 上 近似 径 向 基 核 函数 的 功 
能 ， 径 向 基 核 函数 取 一 定 参 数 也 可 得 到 Sigmoid 核 函数 的 性 能 ; 其 三 ， 多 项 式 核 函数 参数 较 多 ， 不 易于 参数 优选 。 而 径 向 基 核 函数 支持 向 量 机 包含 两 个 重要 的 参数 : 和 您 罚 参 数 Cost 和 核 参数 
Gamma, tune () 函数 可 以 对 两 者 进行 网 格 寻 优 (Grid-search) 确定 最 优 值 。 


常用 的 聚 类 方法 有 系统 聚 类 与 K-Means 聚 类 。 系 统 聚 类 可 以 使 用 hclust () 函数 实现 ， 涉 及 的 参数 有 距离 矩阵 (d) 和 系统 聚 类 方法 (method) ， 其 中 距离 矩 阵 可 以 使 用 dist () 函数 求 得 ， 常 用 的 系 
统 聚 类 方法 有 最 短 距离 法 (single) 、 最 长 距离 法 (complete) 、 类 平均 法 (average) 、 中 间距 离 法 (median) 、 重 心 法 (centroid) 以 及 Ward 法 (ward) 。K-Means 法 是 一 种 快速 聚 类 法 ， 可 以 使 用 
kmeans () 函数 实现 ， 涉 及 的 主要 参数 为 聚 类 数 (centers) 。 

K-Means 法 和 系统 聚 类 法 的 不 同 之 处 在 于 : 系统 聚 类 对 不 同 的 类 数 产生 一 系列 的 聚 类 结果 ， 而 K 均 值 法 只 能 产生 指定 类 数 的 聚 类 结果 。 有 具体 类 数 的 确定 ， 离 不 开 实践 经 验 的 积累 。 有 时 也 可 借助 系统 聚 
类 法 ， 以 一 部 分 样本 为 对 象 进行 聚 类 ， 其 结果 作为 K 均 值 法 确定 类 数 的 参考 。 

作为 数据 挖掘 中 一 个 独立 的 课题 ， 关 联 规则 用 于 从 大 量 数据 中 挖掘 出 有 价值 的 数据 项 之 间 的 相关 关系 ， 常 用 的 有 arules 包 中 的 Apriori 算 法 。 使 用 Apriori 算 法 生成 规则 前 ， 要 把 数据 转换 为 transcation 格 
式 ， 通 过 as () 转换 ;其 中 涉及 的 参数 列表 (parameter) 用 于 自 定义 最 小 支持 度 与 置信 度 。 


时 间 序 列 分 析 是 根据 系统 观测 得 到 的 时 间 序 列 数据 ， 通 过 曲线 拟 合 和 参数 估计 来 建立 数学 模型 的 理论 和 方法 。 进 行 时 间 序 列 分 析 时 ， 可 以 使 用 ts () 函数 将 数据 转化 成 时 间 序 列 格式 ; 模型 拟 合 可 以 通 
过 arima () 函数 实现 ， 涉 及 的 主要 参数 有 order ( 自 回归 项 数 、 滑 动 平 均 项 数 及 使 时 间 序 列 成 为 平稳 序列 的 差分 阶 数 ) 、seasonal (序列 表现 出 季节 性 趋势 时 需要 ， 除 了 上 述 order 内 容 ， 还 有 季节 周期 
period) 、method (参数 估计 方法 ，“CSS” 为 条 件 最 小 二 乘法 ，“ML” 为 极 大 似 然 法 ) 等 。R 里 面 有 个 函数 auto.arima () 可 以 自动 生成 一 个 最 优 拟 合 模型 。 


24 配套 附件 使 用 设置 
本 书 附件 资源 按照 章节 组 织 ， 在 附件 的 目录 中 会 有 chapter2、chapter3、chapter4 等 章节 。 在 基础 篇 章节 中 其 章节 目录 下 只 包含 “示例 程序 ”文件 夹 ， 包 含 三 个 子 目 录 : code、data 和 tmp。 其 
中 ，code 为 章节 正文 中 使 用 到 的 代码 、data 为 使 用 的 数据 文件 、tmp 文 件 夹 中 存放 临时 文件 或 者 示例 程序 运行 的 结果 文件 。 


例如 ， 在 实战 篇 中 ，chapter6 下 面 则 包含 “示例 程序 ”、“ 上 机 实验 ”、“ 上 机 实验 拓展 ”、“ 拓 展 思考 ”文件 夹 。 其 中 ，“ 示 例 程 序 ” 文 件 夹 和 基础 篇 一 致 “上 机 实验 ”文件 夹 则 主要 针对 上 机 实 
验 部 分 的 完整 代码 ， 其 子 目录 结构 和 “示例 程序 ”一 致 ，“ 上 机 实验 拓展 ”里 面包 含 “SAS”、“SPSS” 文 件 夹 ， 主 要 是 使 用 不 同 的 工具 来 解决 上 机 实验 问题 “拓展 思考 ” 则 主要 存储 拓展 思考 部 分 的 数 
据 文 件 。 


读者 只 需 把 整个 章节 如 chapter2 复 制 到 本 地 ， 打 开 其 中 的 示例 程序 即 可 运行 程序 并 得 到 结果 。 这 里 需要 注意 ， 在 示例 程序 中 使 用 的 一 些 自 定义 函数 在 对 应 的 章节 可 以 找到 相应 的 R 文 件 。 同 时 ， 示 例 程 
序 中 的 参数 初始 化 可 能 需要 根据 具体 设置 进行 配置 ， 如 数据 库 的 驱动 的 地 址 ， 如 果 和 示例 程序 不 同 ， 请 自行 修改 。 


25 IVE 


本 章 主 要 对 R 进 行 简单 介绍 ， 包 括 软 件 安装 、 使 用 入 门 及 相关 注意 事项 和 R 数 据 分 析 及 挖掘 相关 包 。R 包 含 多 个 领域 的 程序 包 ， 本 章 只 介绍 了 与 数据 分 析 及 数据 挖掘 相关 的 包 ， 包 括 实 现 分 类 、 聚 类 、 关 
联 规则 、 时 间 序 列 分 析 等 功能 的 包 。 程 序 包 里 面 的 函数 在 后 续 章 节 中 会 进行 实例 分 析 ， 通 过 在 R 平 台 上 完成 实际 案例 的 分 析 来 掌握 数据 分 析 和 数据 挖掘 的 知识 ， 来 培养 读者 应 用 数据 分 析 和 挖掘 技术 解决 实际 


问题 的 能 力 。 


第 3 章 ”数据 探索 


根据 观测 、 调 查收 集 到 初步 的 样本 数据 集 后 ， 接 下 来 要 考虑 的 问题 是 : 样本 数据 集 的 数量 和 质量 是 否 满足 模型 构建 的 要 求 ”有 没有 出 现 从 未 设想 过 的 数据 状态 ”其 中 有 没有 什么 明显 的 规律 和 趋势 ”各 
因素 之 间 有 什么 样 的 天 联 性 ? 


通过 检验 数据 集 的 数据 质量 、 绘 制图 表 、 计 算 某 些 特征 量 等 手段 ， 对 样本 数据 集 的 结构 和 规律 进行 分 析 的 过 程 就 是 数据 探索 。 数 据 探索 有 助 于 选择 合适 的 数据 预 处 理 和 建 模 方法 ， 甚 至 可 以 完成 一 些 通 
常 由 数据 挖掘 解决 的 问题 。 


本 章 从 数据 质量 分 析 和 数据 特征 分 析 两 个 角度 对 数据 进行 探索 。 


зл 数据 质量 分 析 


数据 质量 分 析 是 数据 挖掘 中 数据 准备 过 程 的 重要 一 环 ， 是 数据 预 处 理 的 前 提 ， 也 是 数据 挖掘 分 析 结论 有 效 性 和 准确 性 的 基础 ， 没 有 可 信 的 数据 ， 数 据 挖 掘 构建 的 模型 将 是 空中 楼 阁 。 
数据 质量 分 析 的 主要 任务 是 检查 原始 数据 中 是 否 存 在 脏 数 据 ， 脏 数据 一 般 是 指 不 符合 要 求 ， 以 及 不 能 直接 进行 相应 分 析 的 数据 。 在 常见 的 数据 挖掘 工作 中 ， 脏 数据 包括 : 

` 缺失 值 ; 

ЯТМА; 

` 不 一 致 的 值 ，; 

` 重复 数据 及 含有 特殊 符号 (如 #、 丫 、*) 的 数据 。 


本 小 节 将 主要 对 数据 中 的 缺失 值 、 异 常 值 和 一 致 性 进行 分 析 。 


3.1.1 缺失 值 分 析 


数据 的 缺失 主要 包括 记录 的 缺失 和 记录 中 某 个 字段 信息 的 缺失 ， 两 者 都 会 造成 分 析 结 果 的 不 准确 ， 以 下 从 缺失 值 产生 的 原因 及 影响 等 方面 展开 分 析 。 
(1) 缺失 值 产生 的 原因 
1) 有 些 信息 暂时 无 法 获取 ， 或 者 获取 信息 的 代价 太 大 。 


2) 有 些 信息 是 被 遗漏 的 。 可 能 是 因为 输入 时 认为 不 重要 、 忘 记 填写 或 对 数据 理解 错误 等 一 些 人 为 因素 而 遗漏 ， 也 可 能 是 由 于 数据 采集 设备 的 故障 、 人 存储 介质 的 故障 、 传 输 媒 体 的 故障 等 非 人 为 原因 而 丢 


3) 属性 值 不 存在 。 在 某 些 情况 下 ， 缺 失 值 并 不 意味 着 数据 有 错误 。 对 一 些 对 象 来 说 某 些 属性 值 是 不 存在 的 ， 如 一 个 未 婚 者 的 配偶 姓名 、 一 个 儿童 的 固定 收入 等 。 
(2) 缺失 值 的 影响 

1) 数据 挖掘 建 模 将 丢失 大 量 的 有 用 信息 。 

2) 数据 挖掘 模型 所 表现 出 的 不 确定 性 更 加 显著 ， 模 型 中 殉 含 的 规律 更 难 把 握 。 

3) 包含 空 值 的 数据 会 使 建 模 过 程 陷入 混乱 ， 导 致 不 可 靠 的 输出 。 

(3) 缺失 值 的 分 析 


使 用 简单 的 统计 分 析 ， 可 以 得 到 含有 缺失 值 的 属性 的 个 数 ， 以 及 每 个 属性 的 未 缺失 数 、 缺 失 数 与 缺失 率 等 。 


缺失 值 的 处 理 ， 从 总 体 上 来 说 分 为 删除 存在 缺失 值 的 记录 、 对 可 能 值 进行 插 补 和 不 处 理 三 种 情况 ， 将 在 4.1.1 节 详细 介绍 。 


3.12 异常 值 分 析 


异常 值 分 析 是 检验 数据 是 否 有 录入 错误 以 及 含有 不 合 常理 的 数据 。 忽 视 异 常 值 的 存在 是 十 分 危险 的 ， 不 加 剔除 地 把 异常 值 包括 进 数 据 的 计算 分 析 过 程 中 ， 会 给 结果 带 来 不 良 影响 ;重视 异 常 值 的 出 现 ， 
分 析 其 产生 的 原因 ， 常 常 成 为 发 现 问题 进而 改进 决策 的 契机 。 


异常 值 是 指 样本 中 的 个 别 值 ， 其 数值 明显 偏离 其 余 的 观测 值 。 异 常 值 也 称 为 离 群 点 ， 异 常 值 的 分 析 也 称 为 离 群 点 分 析 。 
(1) 简单 统计 量 分 析 


可 以 先 对 变量 做 一 个 描述 性 统计 ， 进 而 查看 哪些 数据 是 不 合理 的 。 最 常用 的 统计 量 是 最 大 值 和 最 小 值 ， 用 来 判断 这 个 变量 的 取 值 是 否 超出 了 合理 的 范围 。 例 如 ， 客 户 年 龄 的 最 大 值 为 199 岁 ， 则 该 变量 
的 取 值 存在 异常 。 


(2) 3o 原 则 


如 果 数 据 服 从 正 态 分 布 ， 在 30 原 则 下 ， 异 常 值 被 定义 为 一 组 测定 值 中 与 平均 值 的 偏差 超过 三 倍 标准 差 的 值 。 在 正人 态 分 布 的 假设 下 ， 距 离 平均 值 3o 之 外 的 值 出 现 的 概率 为 P (|x-u|>3o) <0.003， 属 于 极 
个 别 的 小 概率 事件 。 


如 果 数 据 不 服从 正 态 分 布 ， 也 可 以 用 远离 平均 值 的 多 少 倍 标准 差 来 描述 。 
(3) 箱 形 图 分 析 


箱 形 图 提供 了 识别 异常 值 的 一 个 标准 : 异常 值 通常 被 定义 为 小 于 QL-1.5IQR 或 大 于 Qu+1.5IQR 的 值 。QL 称 为 下 四 分 位 数 ， 表 示 全 部 观察 值 中 有 四 分 之 一 的 数据 取 值 比 它 小 ，Qu 称 为 上 四 分 位 数 ， 表 示 
全 部 观察 值 中 有 四 分 之 一 的 数据 取 值 比 它 大 ; 1QR 称 为 四 分 位 数 间距 ， 是 上 四 分 位 数 Qu 与 下 四 分 位 数 QL 之 差 ， 其 间 包 含 了 全 部 观察 值 的 一 半 。 


O 


图 3-1 箱 形 图 检测 异常 值 


箱 形 图 依据 实际 数据 绘制 ， 没 有 对 数据 作 任 何 限制 性 要 求 ， 如 服从 某 种 特定 的 分 布 形式 ， 它 只 是 真实 直观 地 表现 数据 分 布 的 本 来 面 狐 ;另外 ， 箱 形 图 判断 异常 值 的 标准 以 四 分 位 数 和 四 分 位 距 为 基础 ， 
四 分 位 数 具 有 一 定 的 鲁 棒 性 : 多 达 25% 的 数据 可 以 变 得 任意 远 而 不 会 很 大 地 扰动 四 分 位 数 ， 所 以 异常 值 不 能 对 这 个 标准 施加 影响 。 由 此 可 见 ， 箱 形 图 识别 异常 值 的 结果 比较 客观 ， 在 识别 异常 值 方 面 有 一 定 
的 优越 性 ， 如 图 3-1 所 示 。 


在 餐饮 系统 中 的 销量 额 数据 可 能 出 现 缺 失 值 和 有 异常 值 ， 例 如 表 3-1 中 的 数据 所 示 。 


表 3-1 餐饮 日 销量 额 数 据 示 保 
мі 


| 
日 期 2015/2/10 2015/2 2015/2/12 2015/2/13 


2015/2/14 


* 数 据 详 见 : 示例 程序 /data/catering_sale.csv 


分 析 餐 饮 系统 日 销量 额 数 据 可 以 发 现 ， 其 中 有 部 分 数据 是 缺失 的 ， 但 是 如 果 数 据 记 录 和 属性 较 多 ， 使 用 人 工分 辨 的 方法 就 很 不 切合 实际 ， 所 以 这 里 需要 编写 程序 来 检测 出 含有 缺失 值 的 记录 和 属性 以 及 
缺失 率 个 数 和 缺失 率 等 。 同 时 ， 通 过 观察 可 以 看 出 日 销量 额 数据 也 含有 异常 值 ， 由 于 这 里 数据 量 较 大 ， 所 以 使 用 箱 形 图 来 检测 异常 值 。R 语 言 检 测 代 码 如 代码 清单 3-1 所 示 。 


代码 清单 3-1 餐饮 销量 额 数据 缺失 值 及 异常 值 检测 代码 


## 设 置 工作 空间 

划 把 “数据 及 程序 ”文件 夹 复制 到 FE 盘 下 ， 再 用 setwq 设 置 工作 空间 

setwd ("F: /数据 及 程序 /chapter3/ 示 例 程序 ") 

# 读 入 数据 

saledata=read.csv (file="./data/catering sale.csv", header=TRUE) 


# 缺 失 值 检测 并 打印 结果 ， 由 于 R 把 TRUE 和 FALSE 分 别 当 作 1、0， 可 以 用 sum () 和 mean () 函数 来 分 别 获 取 缺 失 样本 数 、 缺 失 比 例 


sum (complete.cases (saledata) ) 

sum (! complete.cases (saledata) ) 

mean (! complete.cases (saledata) ) 

saledata [! complete.cases (saledata) , ] # 异 常 值 检测 箱 形 图 
sp=boxplot (saledata$" 销 量 "，lboxwex=0.7) 

title ("销量 异常 值 检测 箱 形 图 ") 

хі=1.1 

ѕа.ѕ=ѕа (saledata [ сотр1еіе.саѕеѕ (saledata) , | $" 销 
mn.s=mean (saledata [ сотр1еіе.саѕеѕ (saledata) , | 
points (хі, m.s, col="red", рсһ=18) 

arrows (хі, mn.s - sd.s, хі, mn.s + sd.s, code = 3, col = "pink", angle = 75, length = .1) 
text (кер (с (1.05, 0.95) , length (sp$out) /2) ‚ sp$out, sp$out, col="red") 


* 代 码 详 见 : 示例 程序 /code/missing abnormal_check.R 


运行 上 面 的 程序 ， 可 以 看 到 缺失 值 个 数 输出 结果 为 “1”， 占 样本 总 量 的 0.497%， 缺 失 值 位 于 第 15 行 ，2015 年 2 月 14 日 销量 缺失 。 
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图 3-2 ”异常 值 检测 箱 形 图 


通过 异常 值 检 测 箱 形 图 的 程序 ， 可 以 得 到 如 图 3-2 所 示 的 箱 形 图 。 


图 3-2 中 ， 箭 头 所 示 的 是 一 个 标准 差 的 区 间 。 可 以 看 出 箱 形 图 中 超过 上 下 界 的 8 个 销售 额 数 据 可 能 为 异常 值 。 结 合 具 体 业 务 可 以 把 865、4060.3、4065.2 归 为 正常 值 , 1460, 22, 51, 6607.4, 9106.44 


归 为 异常 值 。 最 后 确定 过 滤 规 则 为 日 销量 在 400 以 下 5000 以 上 则 属于 异常 数据 ， 编 写 过 滤 程 序 ， 进 行 后 续 处 理 。 


3.1.3 ”一致 性 分 析 


数据 不 一 致 性 是 指数 据 的 矛盾 性 、 不 相 容 性 。 直 接 对 不 一 致 的 数据 进行 挖掘 ， 可 能 会 产生 与 实际 相 违 背 的 挖掘 结果 


° 


在 数据 挖掘 过 程 中 ， 不 一 致 数据 的 产生 主要 发 生 在 数据 集成 的 过 程 中 ， 可 能 是 由 被 挖掘 数据 来 自 于 不 同 的 数据 源 、 对 于 重复 存放 的 数据 未 能 进行 一 致 性 更 新 造成 的 。 例 如 ， 两 张 表 中 都 存储 了 用 户 的 电 


话 号 码 ， 但 在 用 户 的 电话 号 码 发 生 改 变 时 只 更 新 了 一 张 表 中 的 数据 ， 那 么 这 两 张 表 中 就 有 了 不 一 致 的 数据 。 


3.2 ”数据 特征 分 析 
对 数据 进行 质量 分 析 以 后 ， 接 下 来 可 通过 绘制 图 表 、 计 算 某 些 特征 量 等 手段 进行 数据 的 特征 分 析 ， 


3.2.1 分 布 分 析 


分 布 分 析 能 揭示 数据 的 分 布 特征 和 分 布 类 型 。 对 于 定量 数据 ， 欲 了 解 其 分 布 形式 是 对 称 的 还 是 非 对 称 的 、 发 现 某 些 特大 或 特 小 的 可 疑 值 ， 可 做 出 频 


观 地 分 析 ; 对 于 定性 数据 ， 可 用 饼 形 图 和 条 形 图 直观 地 显示 分 布 情况 。 
1. 定 量 数 据 的 分 布 分 析 
对 于 定量 变量 ， 选 择 “组 数 ” 和 “组 宽 ” 是 做 频率 分 布 分 析 时 最 主要 的 问题 ， 一 般 按 照 以 下 步骤 : 


1) 求 极 差 ; 


绘制 


频 


率 分 布 直方 图 、 绘 制 茎 叶 图 进行 直 


2) 决定 组 距 与 组 数 ; 
3) 决定 分 点 ; 
4) 列 出 频率 分 布 表 ; 
5) 绘制 频率 分 布 直方 图 。 
遵循 的 主要 原则 有 : 
1) 各 组 之 间 必 须 是 相互 排斥 的 ; 
2) 各 组 必须 将 所 有 的 数据 包含 在 内 ; 
3) 各 组 的 组 宽 最 好 相等 。 
下 面 结合 具体 实例 运用 分 布 分 析 对 定量 数据 进行 特征 分 析 : 
表 3-2 是 描述 菜品 迭起 生 鱼 片 在 2014 年 第 二 个 季度 的 销售 数据 ， 绘 制 销 售 量 的 频率 分 布 表 、 频 率 分 布 图， 对 该 定量 数据 做 出 相应 的 分 析 。 
ж32 ”迭起 生 鱼 片 的 销售 情况 
日 期 销售 额 /元 
ано lm | 


* 数 据 详 见 : 示例 程序 /data/catering_fish_congee.xls 
(1) 求 极 差 

极 差 = 最 大 值 - 最 小 值 =3960 一 45=3915 (元 ) 

(2) 决定 组 距 与 组 数 

这 里 根据 业务 数据 的 含义 ， 可 取 组 距 为 500。 

组 数 = 极 差 /组 距 =3915/500=7.83 一 8 

(3) 决定 分 点 

分 布 区 间 如 表 3-3 所 示 。 


表 3-3 分布 区 间 


‚0, 500) 500, 1000) | 1000, 1500) |1500, 2000) 
|2000, 2500) |2500, 3000) 3000, 3500) |3500, 4000) 


(4) 列 出 频率 分 布 表 
根据 分 组 区 间 得 到 如 表 3-4 所 示 的 频率 分 布 表 。 其 中 ， 第 1 列 将 数据 所 在 的 范围 分 成 若干 组 段 ， 其 中 第 1 个 组 段 要 包括 最 小 值 ， 最 后 一 个 组 段 要 包括 最 大 值 。 习 惯 上 将 各 组 段 设 为 左 闭 右 开 的 半 开 区 间 ， 
如 第 1 个 分 组 为 [0，500) 。 第 2 列 组 中 值 是 各 组 段 的 代表 值 ， 由 本 组 段 的 上 、 下 限 相 加 除 以 2 得 到 。 第 3 列 和 第 4 列 分 别 为 频数 和 频率 。 第 5 列 是 累计 频率 ， 是 否 需要 计算 该 列 视 情况 而 定 。 


表 3-4 频率 分 布 表 


组 段 累计 频率 /% 
0, 500) 16. 48 
500, 1000) 42. 85 
1000, 1500) 61. 54 
1500, 2000) 78. 02 
2000, 2500) 87.91 
2500, 3000) 131 
13000, 3500) 95. 60 
13500, 4000) | 3750 | 3 | 33 98. 90 
400,400) | 40 | 1 | Ci | 10.00 


G | T о | о 
Ка 
HJ 


(5) 绘制 频率 分 布 直方 

若 以 2014 年 第 二 季度 捞 起 生 鱼 片 每 天 的 销售 额 为 横 轴 ， 以 各 组 段 的 频率 密度 (频率 与 组 距 之 比 ) 为 纵 轴 ， 表 3-4 的 数据 可 绘制 成 频率 分 布 直方 图 ， 如 图 3-3 所 示 。 
2. 定 性 数据 的 分 布 分 析 

对 于 定性 变量 ， 常 常 根据 变量 的 分 类 类 型 来 分 组 ， 可 以 采用 饼 形 图 和 条 形 图 来 描述 定性 变量 的 分 布 。 


x 10™ 
; 季度 销售 额 频率 分 布 直方 图 


0-400 400-800 800~1200 1200-1600 1600-2000 2000-2400 2400-2800 2800-3200 3200-3600 3600-4000 


日 销售 额 /元 
图 3-3 ”销售 额 的 频率 分 布 直方 图 


饼 形 图 的 每 一 个 扇形 部 分 代表 每 一 类 型 的 百分比 或 频数 ， 根 据 定性 变量 的 类 型 数目 将 饼 形 图 分 成 几 个 部 分 ， 每 一 部 分 的 大 小 与 每 一 类 型 的 频数 成 正比 ; 条 形 图 的 高 度 代表 每 一 类 型 的 百分比 或 频数 ， 条 
形 图 的 宽度 没有 意义 。 


图 3-4 和 图 3-5 是 菜品 A、B、C 在 某 段 时 间 的 销售 量 分 布 图 。 


图 3-4 ”菜品 销售 量 分 布 ( 饼 形 图 ) 


菜品 B 


图 3-5 ”菜品 销售 量 分 布 (JE) 


3.2.2 ЕКТ 


对 比分 析 是 指 把 两 个 相互 联系 的 指标 进行 比较 ， 从 数量 上 展示 和 说 明 研 究 对 象 规模 的 大 小 ， 水 平 的 高 低 ， 速 度 的 快慢 ， 以 及 各 种 关系 是 否 协调 。 特 别 适 用 于 指标 间 的 横 纵 向 比较 、 时 间 序 列 的 比较 分 
析 。 在 对 比分 析 中 ， 选 择 合适 的 对 比 标准 是 十 分 关键 的 步骤 ， 选 择 合 适 ， 才 能 做 出 客观 的 评价 ， 选 择 不 合适 ， 评 价 可 能 得 出 错误 的 结论 。 


对 比分 析 主 要 有 以 下 两 种 形式 : 

(1) 绝对 数 比较 

它 是 利用 绝对 数 进 行 对 比 ， 从 而 寻找 差异 的 一 种 方法 。 

(2) 相对 数 比较 

它 是 由 两 个 有 联系 的 指标 对 比 计算 的 ， 用 以 反映 客观 现象 之 间 数 量 联系 程度 的 综合 指标 ， 其 数值 表现 为 相对 数 。 由 于 研究 目的 和 对 比 基 础 不 同 ， 相 对 数 可 以 分 为 以 下 几 种 : 
Т) 结构 相对 数 : 将 同一 总 体内 的 部 分 数值 与 全 部 数值 对 比 求 得 比重 ， 用 以 说 明 事物 的 性 质 、 结 构 或 质量 。 例 如 ， 居 民 食 品 支 出 额 占 消费 支出 总 额 比重 、 产 品 合 格 率 等 。 
2) 比例 相对 数 : 将 同一 总 体内 不 同 部 分 的 数值 对 比 ， 表 明 总 体内 各 部 分 的 比例 关系 ， 如 人 口 性 别 比例 、 投 资 与 消费 比例 等 。 


3) 比较 相对 数 : 将 同一 时 期 两 个 性 质 相 同 的 指标 数值 对 比 ， 说 明 同 类 现象 在 不 同 空间 条 件 下 的 数量 对 比 关系 。 例 如 ， 不 同 地 区 商品 价格 对 比 ， 不 同行 业 、 不 同 企业 间 某 项 指标 对 比 等 。 


Д) 强度 相对 数 : 将 两 个 性 质 不 同 但 有 一 定 联 系 的 总 量 指标 对 比 ， 用 以 说 明 现 象 的 强度 、 密 度 和 普遍 和 程度。 例如， 人均 国内 生产 总 值 用 “元 /人 ”表示 ， 人 口 密度 用 “人 /平方 公里 ”表示 ， 也 有 用 百分数 


或 干 分 数 表示 的 ， 如 人 口 出 生 率 用 %o 表 示 。 
5) 计划 完成 程度 相对 数 : 是 某 一 时 期 实际 完成 数 与 计划 数 对 比 ， 用 以 说 明 计划 完成 程度 。 


6) 动态 相对 数 : 将 同一 现象 在 不 同时 期 的 指标 数值 对 比 ， 用 以 说 明 发 展 方向 和 变化 的 速度 ， 如 发 展 速度 、 增 长 速度 等 。 


拿 各 菜品 的 销售 数据 来 看 ， 从 时 间 的 维度 上 分 析 ， 可 以 看 到 甜品 部 A、 海 鲜 部 B、 素 菜 部 C 三 个 部 门 之 间 的 销售 金额 随时 间 的 变化 趋势 ， 了 解 在 此 期 间 哪 个 部 门 的 销售 金额 较 高 ， 趋 势 比较 平稳 ， 如 图 3-6 


所 示 。 也 可 以 从 单一 部 门 (如 海鲜 部 ) 做 分 析 ， 了 解 各 月 份 的 销售 对 比 情 况 ， 如 图 3-7 所 示 。 


销售 额 /万 元 


IH 2 月 3 月 4H 5 月 6 月 7 月 8 月 9H 10B 1H 12 月 


图 3-6 ”部 门 之 间 销 售 金额 的 比较 


2014 年 


IH 2 月 3 月 4 月 5H 6 月 7 月 8H 9 月 10 月 11 月 12H 


图 3-7 ”海鲜 部 各 年 份 之 间 销 信人 金额 的 比较 


从 总 体 来 看 ， 三 个 部 门 的 销售 金额 呈 递 减 趋势 ;部门 A 和 部 门 C 的 递减 趋势 比较 平稳 ;部 门 B 销 售 金额 下 降 的 趋势 比较 明显 ， 可 以 进一步 分 析 造 成 这 种 现象 的 业务 原因 ， 可 能 是 原材料 不 足 。 
3.2.3 ”统计 量 分 析 

用 统计 指标 对 定量 数据 进行 统计 描述 ， 常 从 集中 趋势 和 离 中 趋势 两 个 方面 进行 分 析 。 

平均 水 平 的 指标 是 对 个 体 集中 趋势 的 度量 ， 使 用 最 广泛 的 是 均值 和 中 位 数 ; 反映 变异 程度 的 指标 则 是 对 个 体 离开 平均 水 平 的 度量 ， 使 用 较 广 泛 的 是 标准 差 (方差 ) 、 四 分 位 数 间距 。 

1. 集 中 趋势 度量 

(1) 均值 

均值 是 所 有 数据 的 平均 值 。 


如 果 求 n 个 原始 观察 数据 的 平均 数 ， 计 算 公式 为 : 


2 


П. 


ЗЕ, 79 БАЕВА ӘЈАРЛЫ АЧАА Е е, 7 Е НАУ — xii 3 w, AASE ЛЕНИНГЕ Дт\: 


теап(х) = х = 


= Ш.Х. их + WX, + + 10 X, | 
теап( х) — ЕЕ ———— (3-2) 
Э: wW, w, + 10, + + + 10 


类 似 地 ， 频 率 分 布 表 (如 表 3-4) 的 平均 数 可 以 使 用 下 式 计算 : 


mean(x) = x = Jin, = fix, tJa + sss + 


式 中 ，x1，X2，.…，Xk 分 别 为 k 个 组 段 的 组 中 值 ，f1，f2，.…，fk 分 别 为 k 个 组 段 的 频率 。 这 里 的 {起 了 权重 的 作用 .。 

作为 一 个 统计 量 ， 均 值 的 主要 问题 是 对 极端 值 很 敏感 。 如 果 数 据 中 存在 极端 值 或 者 数据 是 偏 态 分 布 的 ， 那 么 均值 就 不 能 很 好 地 度量 数据 的 集中 趋势 。 为 了 消除 少数 极端 值 的 影响 ， 可 以 使 用 截断 均值 或 
者 中 位 数 来 度量 数据 的 集中 趋势 。 截 断 均 值 是 去 掉 高 、 低 极端 值 之 后 的 平均 数 。 

(2) 中 位 数 


中 位 数 是 将 一 组 观察 值 从 小 到 大 按 顺序 排列 ， 位 于 中 间 的 那个 数据 。 即 在 全 部 数据 中 ， 小 于 和 大 于 中 位 数 的 数据 个 数 相等 。 


将 某 一 数据 集 x: {x1，x2，…，xn} 从 小 到 大 排序 : {х пу, X (2) , + X (n) }。 


当 n 为 奇数 时 


当 n 为 偶数 时 
(3) 众 数 
众 数 是 指数 据 集中 出 现 最 频繁 的 值 。 众 数 并 不 经 常用 来 度量 定性 变量 的 中 心 位置 ， 更 适用 于 定性 变量 。 众 数 不 具 有 唯一 性 。 
2. 离 中 趋势 度量 
(1) RÆ 
极 差 = 最 大 值 -最 小 值 
极 差 对 数据 集 的 极端 值 非常 敏感 ， 并 且 和 忽略 了 位 于 最 大 值 与 最 小 值 之 间 的 数据 是 如 何 分 布 的 。 
(2) 标准 差 


标准 差 度量 数据 偏离 均值 的 程度 ， 计 算 公式 为 : 
| йб, МГ. 
ГА Ж. — х) | 
gœ gA (3-6) 
L | i 
N Г]. 


(3) 变异 系数 


异 系数 度量 标准 差 相 对 于 均值 的 离 中 趋势 ， 计 算 公 式 为 : 


г 
XI 


CV = 一 x 100% жа 


变异 系数 主要 用 来 比较 两 个 或 多 个 具有 不 同 单位 或 不 同 波动 幅度 的 数据 集 的 离 中 趋势 。 


(4) 四 分 位 数 间距 
四 分 位 数 包 括 上 四 分 位 数 和 下 四 分 位 数 。 将 所 有 数值 由 小 到 大 排列 并 分 成 四 等 份 ， 处 于 第 一 个 分 割 点 位 置 的 数值 是 下 四 分 位 数 ， 处 于 第 二 个 分 割 点 位 置 (中 间 位 置 ) 的 数值 是 中 位 数 ， 处 于 第 三 个 分 割 


点 位 置 的 数值 是 上 四 分 位 数 。 
四 分 位 数 间 距 是 上 四 分 位 数 QU 与 下 四 分 位 数 Ql 之 差 ， 其 间 包 含 了 全 部 观察 值 的 一 半 。 其 值 越 大 ， 说 明 数 据 的 变异 程度 越 大 ;反之 ,说明 变异 程度 越 小 。 


针对 餐饮 销量 数据 进行 统计 量 分 析 ， 其 R 语 言 代码 如 代码 清单 3-2 所 示 。 
代码 清单 3-2 餐饮 销量 数据 统计 量 分 析 代 码 


村 设置 工作 空间 
# 把 “数据 及 程序 ”文件 夹 复制 到 F 盘 下 ， 再 用 setwd 设 置 工作 空间 
setwd ("F: /数据 及 程序 /chapter3/ 示 例 程 序 ") 


# 读 入 数据 
saledata=read.table (file="./data/catering sale.csv", sep=", ", header=TRUE) 


sales=saledata [, 2] 
# 统 计量 分 析 


# 均 值 


mean = mean (sales, na.rm=T) 

# 中 位 数 

median = median (sales, na.rm=T) 

HŽ 

range = max (sales, na.rm=T) -min (sales, na.rm=T) 
# 标 准 差 

std = sqrt (var (sales, na.rm=T) ) 

variation = std /mean # 四 分 位 数 间距 


ql = quantile (sales, 0.25, na.rm=T) 

q3 = quantile (sales, 0.75, na.rm=T) 

distance = q3-ql 

a=matrix (c (mean , median , range , std , variation , ql, q3, distance) , 1, byrow=T) 

зч (а) 一 C ("均值 "， "中 位 数 "， "HŽ", "标准 差 "， "变异 系数 "， "1/424 ж", "37/4 分 位 数 "， "四 分 位 数 间 距 ") 
print (a 


* 代 码 详 见 : 示例 程序 /code/statistics_analyze.R 


我 们 通过 上 面 的 程序 已 经 得 到 餐饮 销量 数 的 统计 量 情况 : 销量 数据 均值 : 2744.5954， 中 位 数 : 2655.9， 极 差 : 3200.2， 标 准 差 : 424.7394， 变 异 系数 : 0.15475， 四 分 位 数 间距 : 566.65, 
3.2.4 周期 性 分 析 


周期 性 分 析 是 探索 某 个 变量 是 否 随 着 时 间 变 化 而 呈现 出 某 种 周期 变化 趋势 。 时 间 尺 度 相对 较 长 的 周期 性 趋势 有 年 度 周 期 性 趋势 、 季 节 性 周期 性 趋势 ， 相 对 较 短 的 有 月 度 周期 性 趋势 、 周 度 周期 性 趋势， 
甚至 更 短 的 天 、 小 时 周期 性 趋势 。 


例如 ， 要 对 某 单 位 用 电量 进行 预测 ， 可 以 先 分 析 该 用 电 单 位 日 用 电量 的 时 序 图 ， 以 此 来 直观 地 估计 其 用 电量 变化 趋势 。 
图 3-8 是 某 用 电 单 位 A 在 2014 年 9 月 日 用 电量 的 时 序 图 ; 图 3-9 是 用 电 单 位 A 在 2013 年 9 月 日 用 电量 的 时 序 图 。 
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图 3-8 2014 年 9 月 日 用 电量 时 序 图 
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图 3-9 2013 年 9 月 日 用 电量 时 序 图 


总 体 来 看 用 电 单位 A 的 2014 年 9 月 日 用 电量 呈现 出 周期 性 ， 以 周 为 周期 ， 因 为 周 六 周 日 不 上 班 ， 所 以 周末 用 电量 较 低 。 工 作 日 和 非 工作 日 的 用 电量 比较 平稳 ， 没 有 太 大 的 波动 。 而 2013 年 9 月 日 用 电量 总 
体 呈 现 出 递减 的 趋势 ， 同 样 周末 的 用 电量 是 最 低 的 。 


3.2.5 ”贡献 度 分 析 


贡献 度 分 析 又 称 帕 累 托 分 析 ， 它 的 原理 是 帕 累 托 法 则 又 称 20/80 定 律 。 同 样 的 投入 放 在 不 同 的 地 方 会 产生 不 同 的 效益 。 例 如 ， 对 一 个 公司 来 讲 ，80% 的 利润 常常 来 自 于 20% 最 畅销 的 产品 ， 而 其 他 80% 
的 产品 只 产生 了 20% 的 利润 。 
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就 餐饮 企业 来 讲 ， 应 用 贡献 度 分 析 可 以 重点 改善 某 菜系 盈利 最 高 的 前 80% 的 菜品 ， 或 者 重点 发 展 综合 影响 最 


品 A1~A10 某 个 月 的 盈利 额 (已 按照 从 大 到 小 排序 ) 。 


由 图 3-10 可 知 ， 菜 品 A1~A7 共 7 个 菜品 ， 占 菜品 种 类 数 的 70%， 总 盈利 额 约 占 该 月 盈利 额 的 85%。 


额 。 


表 3-5 是 餐饮 系统 对 应 的 菜品 盈利 数据 示例 。 


高 的 80% 的 部 门 。 这 种 结果 可 以 通过 帕 累 托 图 直观 地 呈现 出 来 。 图 3-10 是 海鲜 系列 的 十 个 菜 


根据 帕 办 托 法 则 ， 应 该 增加 对 菜品 A1~A7 的 成 本 投入 ,减少 对 菜品 A8~A10 的 投入 以 获得 更 高 的 盈利 


表 3-5 BRR AR d AA) ҖАЕ 


FEID ян 


* 数 据 详 见 : 示例 程序 /data/catering_dish_profit.csv 


代码 清单 3-3 ”菜品 盈利 帕 累 托 图 代码 


## 设 置 工作 空间 

# 把 “数据 及 程序 ”文件 夹 复制 到 F 盘 下 ， 再 用 setwd 设 置 工作 空间 

setwd ("F: /数据 及 程序 /chapter3/ 示 例 程 序 ") 

Я Д Ж о А, ВА ЖЕ 

dishdata=read.csv (file=" ./data/catering dish profit.csv", header=TRUE) 
barplot (dishdata [, 3] , col="bluel", names. .arg=dishdata [, 2] , width=1, space=0, 
ylim=c (0, 10000) , xlab=" 菜 品 "， ylab=" #4]: Æ") 

accratio=dishdata [, 3] 

for ( i in 1: length (accratio) ) { 

accratio [i] =sum (dishdata [1: i, 3] ) /sum (dishdata [, 3] ) 

} 

par (new=T, mar=c (4, 4, 4, 4) ) 


points (accratio*10000~c ( (1: length (accratio) -0.5) ) , new=FALSE, type="b", new=T) 


axis (4, col="red", col.axis="red", at=0: 10000, label=c (0: 10000/10000) ) 
mtext ("累积 百分比 "，4，2) 

points (6.5, accratio [7] *10000, col="red") 

text (7, accratio [7] *10000, paste (round (accratio [7] +0.00001, 4) *100, "%") ) 


* 代 码 详 见 : 示例 程序 /code/dish_pateto.R 


3.2.6 ”相关 性 分 析 


分 析 连 续 变量 之 间 线 性 相关 程度 的 强 弱 ， 并 用 适当 的 统计 指标 表示 出 来 的 过 程 称 为 相关 分 析 。 


1. 直 接 绘制 散 点 图 


判断 两 个 变量 是 否 具 有 线性 相关 关系 最 直观 的 方法 是 直接 绘制 散 点 图 ， 如 图 3-11 所 示 。 


а) 完全 正 线性 相关 


d) 正 线性 相关 e) 负 线 性 相关 f) 不 相关 


图 3-11 相关 关系 的 图 示 


2 绘制 散 点 图 矩阵 
需要 同时 考察 多 个 变量 间 的 相关 关系 时 ， 一 一 绘制 它们 间 的 简单 散 点 图 会 十 分 麻烦 。 此 时 可 利用 散 点 图 矩阵 来 同时 绘制 各 变量 间 的 散 点 图 ， 从 而 快速 发 现 多 个 变量 间 的 主要 相关 性 ， 这 在 进行 多 元 线性 


回归 时 显得 尤为 重要 。 


散 点 图 矩阵 如 图 3-12 所 示 。 


3-12 +К,® ҖЕ 


3. 计 算 相 关系 数 
为 了 更 加 准确 地 描述 变量 之 间 的 线性 相关 程度 ， 可 以 通过 计算 相关 系数 进行 相关 分 析 。 在 二 元 变量 的 相关 分 析 过 程 中 比较 常用 的 有 Pearson 相 关系 数 、Spearman 秩 相关 系数 和 判定 系数 。 


(1) Pearson 相 关系 数 
Pearson 相 关系 数 一 般 用 于 分 析 两 个 连续 性 变量 之 间 的 关系 ， 其 计算 公式 如 下 : 


相关 系数 r 的 取 值 范围 : -1<r<1 


r > Ü 为 正直 


= 
I 


r к= 


0<|r|<1 表 示 存 在 不 同 程 度 线性 相关 : 


г < 0.3 为 不 存在 线性 相关 
0.3 < |r| <0.5 为 低 度 线性 相关 
05 < || = 


(2) Spearman 秩 相关 系数 


Pearson 线 性 相关 系数 要 求 连续 变量 的 取 值 服从 正 态 分 布 。 不 服从 正 态 分 布 的 变量 、 分 类 或 等 级 变量 之 间 的 关联 性 可 采用 Spearman 秩 相关 系数 ， 也 称 等 级 相关 系数 来 描述 。 
其 计算 公式 如 下 : 


П 


= 1+ e (3-9) 


对 两 个 变量 成 对 的 取 值 分 别 按照 从 小 到 大 (或 者 从 大 到 大 小 ) 顺序 编 秩 ，Ri 代 表 xi 的 秩 次 ，Qi 代 表 y 的 秩 次 ，Ri - Qi 为 Xi、yi 的 秩 次 之 差 。 


下 面 给 出 一 个 变量 x= (x1，x2，…，Xxi，…，Xxn) 秩 次 的 计算 过 程 : 
fi 从 小 到 大 排序 秩 次 R. 


对 于 一 个 变量 ,相同 的 取 值 必须 有 相同 的 秩 次 ， 所 以 在 计算 中 采用 的 秩 次 是 排序 后 所 在 位 置 的 平均 值 。 
易 知 ， 只 要 两 个 变量 具有 严格 单调 的 函数 关系 ， 那 么 它们 就 是 完全 Spearman 相 关 的 ， 这 与 Pearson 相 关 不 同 ，Pearson 相 关 只 有 在 变量 具有 线性 关系 时 才 是 完全 相关 的 。 


上 述 两 种 相关 系数 在 实际 应 用 计算 中 都 要 对 其 进行 假设 检验 ， 使 用 t 检 验方 法 检验 其 显著 性 水 平 以 确定 其 相关 程度 。 研 究 表明 ， 在 正 态 分 布 假定 下 ，Spearman 秩 相关 系数 与 Pearson 相 天 系数 在 效率 上 
是 等 价 的 ， 而 对 于 连续 测量 数据 ， 更 适合 用 Pearson 相 关系 数 进 行 分 析 。 


(3) 判定 系数 


判定 系数 是 相关 系数 的 平方 ， 用 r* 表 示 ; 用 来 衡量 回归 方程 对 y 的 解释 程度 。 判 定 系数 取 值 范 围 : 0<r2<1。r< 越 接近 于 1， 表 明 x 与 y 之 间 的 相关 性 越 强 ; r2 越 接近 于 0， 表 明 两 个 变量 之 间 几 乎 没有 直线 
相关 关系 。 


餐饮 系统 中 可 以 统计 得 到 不 同 菜品 的 日 销量 数据 ， 数 据 示例 如 表 3-6 所 示 。 


日 期 ARAR | BSA Ф) 原 汁 原味 
z SAJT men эн 菜 心 


* 数 据 详 见 : 示例 程序 /data/catering_sale_all.csv 


分 析 这 些 菜品 销售 量 之 间 的 相关 性 可 以 得 到 不 同 菜品 之 间 的 关系 ， 如 替补 菜品 、 互 补 菜品 或 者 没有 关系 ， 为 原材料 采购 提供 参考 。 其 R 语 言 代码 如 代码 清单 3-4 所 示 。 
代码 清单 3-4 ”餐饮 销量 数据 相关 性 分 析 


# 餐 饮 销 量 数 据 相 关 性 分 析 

## 设 置 工作 空间 

# 把 “数据 及 程序 ”文件 夹 复制 到 F 盘 下 ， 再 用 setwd 设 置 工作 空间 

Setwd ("Е: /数据 及 程序 /chapter3/ 示 例 程 序 ") 

# 读 取 数 据 

cordata=read.csv (file="./data/catering sale all.csv", header=T) 
# 求 出 相关 系数 矩阵 

cor (cordata [, 2: 11] ) 


* 代 码 详 见 : 示例 程序 /code/correlation_analyze.R 


运行 上 面 的 代码 ， 可 以 得 到 下 面 的 结果 : 


T T Ж-О 0. 009 
в ЛЛ Z° +E Ë 0.016 
BE FL rk ЯШ 0.455 


205603 


799326 


638166 
МА 


E ЖЖ 0. 308495593 
铁 板 酸菜 豆腐 0. 20489784 
ЖЮ ЗЕ Ж 0. 127448249 
FRP МА —0. 090275548 
原 汁 原味 菜 心 0. 42831626 


=“ 
= 
用 


由 于 缺失 值 的 出 现 ， 相 关系 数 计算 结果 中 也 出 现 了 一 个 NA， 但 是 没有 影响 其 他 菜品 的 相关 系数 。 从 上 面 的 结果 可 以 看 到 如 果 顾 客 点 了 “百合 桨 蒸 凤 爪 ” ， 则 点 
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R 提 供 了 大 量 的 与 数据 探索 相关 的 函数 ， 这 些 数据 探索 函数 可 大 致 分 为 统计 特征 函数 与 统计 作 图 函数 。 本 小 节 对 R 中 主要 的 统计 特征 函数 与 统计 作 图 函数 进行 介绍 


3.3.1 ”统计 特征 函数 


"ARAI. "SIRIN AHF 


骨 ”、“ 香 部 萝卜 糕 ”、“ 铁 板 酸菜 豆腐 ”、“ 香 前 韭菜 饺 ”等 主食 类 的 相关 性 比较 低 ， 反 而 点 “ 乐 腾 真 味 鸡 ”、“ 生 炒菜 心 ”、“ 原 汁 原味 菜 心 ”的 相关 性 比较 高 。 


， 并 举例 以 方便 理解 。 


统计 特征 函数 用 于 计算 数据 的 均值 、 方 差 、 标 准 差 、 分 位 数 、 相 关系 数 、 协 方差 等 ， 这 些 统计 特征 能 反映 出 数据 的 整体 分 布 。 本 小 节 所 介绍 的 统计 特征 函数 如 表 3-7 所 示 。 


表 3-7 及 中 主要 的 统计 特征 函数 


国 数 名 
mean() 


exp( mean( 102() ) 


函数 功能 


计算 效 据 样本 的 自 术 平均 数 
计算 数据 样本 的 儿 何 平均 数 


sd() 计算 数据 样本 的 标准 差 
сог() 计算 数据 样本 的 相关 系数 矩阵 


momenl( ) 


计算 数据 样本 的 指定 阶 中 心 矩 


summary ( ) ШАРАХ ЈИЕ. . WAEA., Be] 8. Ae. ЧА Ж 


(1) mean 

功能 : ААБ ЖР) Ж, 

А: 

п=теап (Х) 

ИКӘ АХ Еп, Хауа, ЕЕН 45 ИН, 
(2) ехр (mean (log () ) 

' 功能 : 计算 数据 样本 的 几何 平均 数 。 

' 使 用 格式 : 

n=exp (mean (log (X) ) 

计算 样本 X 的 几何 均值 n， 样 本 X 可 为 向 量 、 和 矩 阵 或 多 维 数组 。 
(3) Var 

` 功能 : 计算 数据 样本 的 方差 。 

' 使 用 格式 : 


v=var (X) 


计算 样本 X 的 方差 v。 知 X 为 向 量 ， 则 计算 向 量 的 样本 方差 。 若 X 为 矩阵 ， 则 v 为 X 的 各 列 向 量 的 样本 方差 构成 的 行 向 量 。 


(4) sd 


' 功能 : 计算 数据 样本 的 标准 差 。 


“ 使 用 格式 : 


s=sd (X) 


计算 样本 X 的 标准 差 ， 若 样本 X 为 向 量 ， 则 计算 向 量 的 标准 差 。 若 X 为 矩阵 ， 则 s 为 X 的 各 列 向 量 的 标准 差 构成 的 行 向 量 。 


(5) сог 

功能 : 计算 数据 样本 的 相关 系数 矩阵 。 

' 使 用 格式 : 
R=cor (x, y=NULL, use="everything", method=c ("реагѕоп", "kendall", "spearman") ) 


计算 列 向 量 x、y 的 相关 系数 矩阵 R。 其 中 ，name 和 value 的 取 值 如 表 3-8 所 示 。 


表 3-8 cot 函数 method、use 参 数 取 值 表 


пате value 
kendall 


method 


Spearman 


everything 


all. obs 


use complete. obs 


па. Or. complete 


pairwise. complete. obs 


说 明 
皮尔 条 相关 和 系数， 默认 选项 
Н Ж ЖАА 
全 部 数据 ， 有 NA 的 计算 出 NA 
所 有 观测 值 ， 有 NA 的 计算 提示 error 
只 使 用 没有 缺失 值 的 行 
在 存在 NA 时 计算 出 NA 
HARG, j) 只 使 用 第 i 和 j 列 中 所 有 非 缺 失 的 数据 


. 实例 : 计算 两 个 列 向 量 的 相关 系数 ， 采 用 Speatman 方 法 。 


х=с (1: 8) # 生 成 向 量 X 


у=с (2: 9) # 生 成 向 量 y 

R=cor (x, y, method='spearman') # 计 算 两 个 向 量 x，y 的 相关 系数 ， 易 知 y=x+1 

R # 得 到 相关 系数 为 1 [1] 1 
(6) cov 


功能 : ЖЖ Ану Pp 2 Ж ЖЕ É, 

IARR: 

R=cov (X) 

计算 样本 X 的 协 方差 矩阵 R。 样 本 X 可 为 向 量 或 矩阵 。 当 X 为 向 量 时 ，R 表 示 X 的 方差 。 当 X 为 矩阵 时 ，cov (X) 计算 方差 矩阵 。 
R=cov (х, у) 

函数 等 价 于 cov ( [х, у] ) 。 参 数 x、y 为 长 度 相等 的 列 向 量 。 

" 实例 : 计算 20X5 随 机 短 阵 的 协 方差 矩阵 。 


X=matrix (rnorm (100) , 20, 5) #^ + 20х54 
R=cov (X) # 计 算 协 方差 矩阵 R 
R 


L, 11 [, 2] Ea 3] C, 4] [, 5] [1, J] 0.65160946 0.07024229 0.06835007 0.30762937 -0.06023185 [2, | 0.07024229 0.58831470 0.159 


(7) moment 

功能 : TF L28464 26946 £ Br P <: 3, 

* 使 用 格式 : 

m=moment (X, order) 

计算 样本 X 的 order 阶 次 的 中 心 拓 mn， 参数 ordet 为 正 整数 。 样 本 X 可 为 向 量 、 和 矩阵 或 多 维 数 组 。 

` 说 明 : 一 阶 中 心 矩 为 0， 二 阶 中 心 矩 为 用 除数 n 得 到 的 方差 ， 其 中 n 为 向 量 X 的 长 度 或 算 阵 义 的 行 数 。 使 用 此 函数 要 加 载 c1071 包 。 


` 实例 : 计算 100 个 随机 数 的 2 阶 中 心 矩 。 


library (e1071) # 加 载 e1071 包 
X=rnorm (100) # 产 生 100 个 随机 数 
m=moment (X, 2) #® Ж — Br р < 4E 
m[1] 1.131408 


3.3.2 ”统计 作 图 函数 
通过 统计 作 图 函数 绘制 的 图 表 可 以 直观 地 反映 出 数据 及 统计 量 的 性 质 及 其 内 在 规律 ， 如 盒 图 可 以 表示 多 个 样本 的 均值 ， 误 差 条 形 图 能 同时 显示 下 限 误 差 和 上 限 误差 ， 最 小 二 乘 拟 合 曲线 图 能 分 析 两 变量 
间 的 关系 。 本 小 节 所 介绍 的 统计 作 图 函数 如 表 3-9 所 示 。 


表 3-9 及 中 的 基本 统计 作 图 函数 


作 图 函数 名 作 图 函数 功能 
barplot() 绘制 简单 条 形 图 
pie() 绘制 饼 形 图 
hist() 绘制 二 维 条 形 直 方 图 ， 可 显示 数据 的 分 配 情形 
boxplot() 绘制 样本 数据 的 箱 形 图 
plot() 绘制 线性 二 维 图 、 折 线 图 、 散 点 图 


rd 


(1) barplot 

. 功能 : 绘制 简单 条 形 图 。 

` 使 用 格式 : 

batplot (X, horiz=FALSE, main, xlab, ylab) 

绘制 矩阵 样本 X 的 分 类 条 形 图 ，X 是 一 个 向 量 或 者 矩阵 。 其 中 ， 参 数 horiz 是 逻辑 值 ， 默 认为 FALSE， 改 成 TRUE 图 形变 为 横向 条 形 图 ，main、xlab、ylab 分 别 表示 图 形 标题 、 横 轴 和 纵 轴 标 题 。 
` 实例 : 绘制 样本 数据 的 条 形 图 ， 样 本 由 “A”、 “В”, “С” 三 种 类 型 的 随机 数据 组 成 。 绘 制 结果 如 图 3-13 所 示 。 


> 


x=sample (тер (c ("А", "B", "C") , 20) , 50) #=#@,4 “А”, “В” . “C” һе 


counts=table (x) # 统 计 三 种 样本 的 数量 保存 在 counts 中 
barplot (counts) # 绘 制 条 形 图 展示 三 种 样本 的 数量 


(2) pie 
. 功能 : 绘制 饼 形 图 。 


` 使 用 格式 : 


pie (X) 
绘制 矩 嘻 X 中 非 负数 据 的 饼 形 图 。 若 X 中 非 负 元 素 和 小 于 1， 则 函数 仅 画 出 部 分 的 饼 形 图 ， 且 非 负 元 素 X (i, j) 的 值 直接 限定 饼 形 图 中 扇形 的 大 小 ; 若 X 中 非 负 元 素 和 大 于 等 于 1， 则 非 负 元 素 X (i, j) 代 


表 饼 形 图 中 的 扇形 大 小 通过 X (i, j) /的 大 小 来 决定 ， 其 中 ，Y 为 矩阵 X 中 非 负 元 素 和 。 


. 实例 : 通过 向 量 [131.541.5] 画 尔 形 图 ， 并 将 第 一 部 分 分 离 出 来 。 绘 制 结果 如 图 3-14 所 示 。 


pct=round (counts/sum (counts) *100) # 还 用 上 一 例 中 的 数据 
# 计 算 百 分 比 ， 便 于 加 标签 


lbls=paste (с (TAT "В"; тС) I pct, Mew 
pie (counts, labels=lbls) # 画 饼 形 图 


/ I 
|| 
==“ 

В C 


чт 
D 
А 


图 3-13 条 形 图 


(3) hist 
. 功能 : 绘制 二 维 条 形 直方 图 ， 可 显示 数据 的 分 布 情形 。 
` 使 用 格式 : 


hist (X, freq=TRUE) 


把 向 量 X 中 的 数值 自动 分 组 ， 各 组 距 相等 ， 条 形 图 每 一 条 的 高 度 表 示 频 率 或 者 频数 ， 默 认 freq=TRUE， 即 画 出 频数 条 形 图 ，freq=FALSE 时 绘 出 频率 条 形 图 。 


. 实例 : 绘制 二 维 条 形 直 方 图 ， 从 1 到 999 中 随机 抽取 100 个 数 ， 并 对 100 取 余数 ， 得 到 100 个 1 到 99 之 间 的 随机 数 ， 保 存在 向 量 x 中 ， 对 其 绘制 直方 图 。 绘 制 结果 如 图 3-15 所 示 。 


x=sample (1: 999, 100) %%100 # 取 100 个 1 到 99 之 间 的 随机 数 
р 


hist (x, freq=FALSE, breaks=7, 
main="Histogram of x with density curve") 
lines (density (x) , col="red") 


# 绘 制 频率 直方 图 
# 添 加 密度 曲线 


图 3-14 ”人 饼 形 图 
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图 3-15 ”二 维 条 形 直方 图 
(4) boxplot 


` 功能 : 绘制 样本 数据 的 箱 形 图 。 
` 使 用 格式 : 
boxplot (X) 


绘制 矩阵 样本 X 的 箱 形 图 。 其 中 ， 盒 子 的 上 、 下 四 分 位 数 和 中 值 处 有 一 条 线段 。 箱 形 末 端 延伸 出 去 的 直线 称 为 须 ， 表 示 盒 外 数据 的 长 度 。 如 果 在 有 顷 外 没有 数据 ， 则 在 须 的 底部 有 一 点 ， 点 的 颜色 与 须 的 颜 
色相 同 。 其 中 ， 参 数 notch 默 认为 FALSE， 如 果 改 为 TRUE 则 绘制 矩阵 样本 X 的 带 刻 槽 的 止 盒 图 。 和 别 的 绘图 函数 一 样 ， 也 可 以 给 horizontal 赋 值 TRUE， 使 图 形 横 过 来 。 


. 实例 : 绘制 样本 数据 的 箱 形 图 ， 样 本 由 两 组 正 态 分 布 的 随机 数据 组 成 。 其 中 ， 一 组 数据 均值 为 5， 方 差 为 2， 另 一 组 数据 均值 为 ?， 方 差 为 4， 并 且 分 别 补充 两 个 比较 偏离 均值 的 数 ， 使 图 中 可 以 出 现 离 
群 点 。 绘 制 结果 如 图 3-16 所 示 。 


х1=с (rnorm (50, 5, 2) , 11, 1) # 生 成 随机 数 50 个 ， 均 值 为 5， 方 差 为 2， 并 补充 两 个 常数 


x2=c (rnorm (50, 7, 4) , 10, 2) # 生 成 随机 数 50 个 ， 均 值 为 7， 方 差 为 4， 并 补充 两 个 常数 
boxplot (xl, x2, notch=TRUE) # 绘 带 刻 槽 的 样本 数据 的 箱 形 图 
(5) plot 


` 功能: 绘制 线性 二 维 图 、 折 线 图 、 散 点 图 。 


` 使 用 格式 : 
blot (Х, Ү) 
绘制 Y 对 于 X ( 即 以 X 为 横 轴 的 二 维 图 形 ) ， 可 以 通过 参数 type 指 定 绘制 时 图 形 的 类 型 、 样 式 ， 可 以 有 "о" “P “b” 等 ， 这 三 种 分 别 表 示 散 点 、 曲 线 和 点 线 混合 型 。 通 过 col 参 数 可 以 设置 多 种 颜色 。 


. 实例 ; 在 区 间 (0<x<2r) 绘制 一 条 蓝 色 的 正 芒 曲 线 ， 绘 制图 形 如 图 3-17 所 示 。 


x=seq (from=0, to=2*pi, length=50) # 取 50 个 X 值 
у=з1п (х) # 计 算 相 对 应 的 y 值 
plot (x, у, col="blue", type="1") # 绘 制 y 关 于 x 的 曲线 ， 类 型 为 曲线 型 ， MEARKE 


© | 
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箱 形 图 


图 3-16 


图 3-17 正弦 曲线 图 


34 小结 


本 章 从 应 用 的 角度 出 发 ， 从 数据 质量 分 析 和 数据 特征 分 析 两 个 方面 对 数据 进行 探索 分 析 ， 最 后 介绍 了 R 语 言 中 常用 的 数据 探索 函数 及 用 例 。 数 据 质量 分 析 要 求 我 们 拿 到 数据 后 要 先 检测 是 否 存在 缺失 值 和 
异常 值 ; 而 数据 特征 分 析 要 求 我 们 在 数据 挖掘 建 模 前 ， 通 过 频率 分 布 分 析 、 对 比分 析 、 帕 累 托 分 析 、 周 期 性 分 析 、 相 关 性 分 析 等 方法 ， 对 所 采集 样本 数据 的 特征 规律 进行 分 析 ， 以 了 解数 据 的 规律 和 趋势 ， 
为 数据 挖掘 的 后 续 环节 提供 支持 。 


第 4 章 ”数据 预 处 理 


在 数据 挖 扬中 ， 海 量 的 原始 数据 中 存在 着 大 量 不 完整 (有 缺失 值 ) 、 不 一 致 、 有 异常 的 数据 ， 严 重 影响 到 数据 挖掘 建 模 的 执行 效率 ， 甚 至 可 能 导致 挖掘 结 果 的 偏差 ， 所 以 进行 数据 清洗 就 显得 尤为 重 
， 数 据 清洗 完成 后 接着 进行 或 者 同时 进行 数据 集成 、 变 换 、 规 约 等 一 系列 的 处 理 ， 该 过 程 就 是 数据 预 处 理 。 数 据 预 处 理 一 方面 是 要 提高 数据 的 质量 ， 另 一 方面 是 要 让 数据 更 好 地 适应 特定 的 挖掘 技术 或 工 
。 统 计 发 现 ， 在 数据 挖掘 的 过 程 中 ， 数 据 预 处 理工 作 量 占 到 了 整个 过 程 的 60%。 


Ш В 


\ 
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数据 预 处 理 的 主要 内 容 包括 数据 清洗 、 数 据 集成 、 数 据 变换 和 数据 规约 。 处 理 过 程 如 图 4-1 所 示 。 


数据 请 议 


数据 集成 


数据 变换 15, 20, 50, 75 ————» 0.15, 02, 0.5, 075 


 AlA3... A100 


数据 规约 


图 4-1 数据 预 处 理 过 程 示意 图 


41 数据 清洗 
数据 清洗 主要 是 删除 原始 数据 集中 的 无 关 数据 、 重 复数 据 ， 平 滑 噪 声 数据 ， 筛 选 掉 与 挖掘 主 题 无 关 的 数据 ， 处 理 缺 失 值 、 异 常 值 等 。 


4.1.1 缺失 值 处 理 


从 统计 上 说 ,缺失 的 数据 可 能 会 产生 有 偏 估计 ， 从 而 使 样本 数据 不 能 很 好 地 代表 总 体 ， 而 现实 中 绝 大 部 分 数据 都 包含 缺失 值 ， 因 此 如 何 处 理 缺失 值 很 重要 。 


一 般 来 说 ， 缺 失 值 的 处 理 包括 两 个 步骤 ， 即 缺失 数据 的 识别 和 缺失 值 处 理 。 在 R 语 言 中 缺失 值 通常 以 NA 表示 ， 可 以 使 用 函数 is.na () 判断 缺失 值 是 否 存在 ， 另 外 函数 complete.cases () 可 识别 样本 数 
据 是 否 完整 从 而 判断 缺失 情况 。 在 对 是 否 存在 缺失 值 进行 判断 之 后 需要 进行 缺失 值 处 理 ， 常 用 的 方法 有 删除 法 、 蔡 换 法 、 揪 补 法 等 。 


(1) 删除 法 


删除 法 是 最 简单 的 缺失 值 处 理 方法 ， 根 据 数据 处 理 的 不 同 角度 可 分 为 删除 观测 样本 、 删 除 变量 两 种 。 删 除 观 测 样本 又 称 行 删 除法 ， 在 R 中 可 通过 na.omit () 函数 移 除 所 有 含有 缺失 数据 的 行 ， 这 属于 以 
减少 样本 量 来 换取 信息 完整 性 的 方法 ， 适 用 于 缺失 值 所 占 比 例 较 小 的 情况 ;删除 变量 适用 于 变量 有 较 大 缺失 上 且 对 研究 目标 影响 不 大 的 情况 ， 意 味 着 要 删除 整个 变量 ， 这 在 R 中 可 通过 data [, -р] 来 实现 ， 
其 中 data 表 示 目 标 数据 集 ，p 表 示 缺 失 变 量 所 在 的 列 。 


(2) 替换 法 


变量 按 属性 可 分 为 数值 型 和 非 数值 型 ， 二 者 的 处 理 办 法 不 同 : 如 果 缺 失 值 所 在 变量 为 数值 型 的 ， 一 般 用 该 变量 在 其 他 所 有 对 象 的 取 值 的 均值 来 蔡 换 变量 的 缺失 值 ; 如 果 为 非 数值 型 变量 ， 则 使 用 该 变量 
其 他 全 部 有 效 观 测 值 的 中 位 数 或 者 众 数 进 行 蔡 换 。 


(3) ENA 


删除 法 虽然 简单 易 行 ， 但 会 存在 信息 浪费 的 问题 且 数 据 结构 会 发 生变 动 ， 以 臻 最 后 得 到 有 偏 的 统计 结果 ， 蔡 换 法 也 有 类 似 问 题 。 在 面 对 缺 失 值 问题 ， 澡 用 的 播 补 法 有 回归 播 补 、 多 重 插 补 等 。 回 归 插 补 
法 利用 回归 模型 ， 将 需要 插值 补缺 的 变量 作为 因 变 量 ， 其 他 相关 变量 作为 自 变量 ， 通 过 回归 函数 Im () 预测 出 因 变 量 的 值 来 对 缺失 变量 进行 补缺 多 重播 补 法 的 原理 是 从 一 个 包含 缺失 值 的 数据 集中 生成 一 
组 完整 的 数据 ， 如 此 进行 多 次 ， 从 而 产生 缺失 值 的 一 个 随机 样本 ，R 中 的 mice 函 数 包 可 以 用 来 进行 多 重 插 补 。 


下 面 结合 具体 案例 介绍 缺失 值 的 识别 和 处 理 。 


餐饮 系统 中 的 销量 数据 可 能 会 出 现 缺失 值 ， 表 4-1 为 某 餐 厅 一 段 时 间 的 销量 表 ， 其 中 2015 年 2 月 14 日 的 数据 缺失 ， 用 均值 蔡 换 、 回 归 播 补 、 多 重 插 补 进行 缺失 数据 插 补 的 R 程 序 实现 如 代码 清单 4-1 所 


人 小。 


ЖАЛ 某 餐 厅 一 段 时 间 的 销量 数据 


= 售 额 /元 


б озал ° l 


日 其 
2015/2/25 


2015/2/24 — зз 
2015/2/23 336 6 
2015/2/22 б озал б озал 
2015/2/21 — 64 ° 
2015/2/20 4з ° 


* 数 据 详 见 : 示例 程序 /data/catering_sale.csv 


代码 清单 4-1 用 均值 替换 、 回 归 揪 补 及 多 重 插 补 进行 插 补 


— 
— 
аон 
— e 
一 一 一 一 一 
2015003 


销售 额 /元 
3614.7 
3295. 5 
2332. 1 
2699. 3 

= Ë 
3036. 8 


НЕ ë TE Z ја] 
# 把 “数据 及 程序 ”文件 夹 复制 到 F 盘 下 ， 再 用 setwd 设 置 工作 空间 
setwd ("F: /数据 及 程序 /chapter4/ 示 例 程序 ") 

# 读 取 销 售 数 据 文 件 ， 提 取 标 题 行 

inputfile=read.csv ('./data/catering sale.csv' 
ss 变量 名 
i i 1e=data. 


‚ he=T) 


frame (sales=inputfile$' 销 量 '，date=inputfile$' 日 期 ') 


inputfile=inputfile [5: 16, | 


q 失 数 据 的 识别 

іѕ.па (inputfile) # 判 断 是 否 存 在 缺失 
n=sum (іѕ.па (inputfile) ) 

# 异常 值 识别 

par (mfrow=c (1, 2) ) 

dotchart (inputfile$sales) 
boxplot (inputfile$sales, horizontal=T) 


# 输 出 缺失 值 个 数 


# 将 绘图 窗口 划 为 1 行 两 列 ， 同 时 显示 两 图 
# 绘 制 单 变量 散 点 
# 绘 制 水 平 箱 形 图 


# 异 常数 据 处 理 
inputfile$sales [5] =NA # 将 异常 值 处 理 成 缺失 值 
fix (inputfile) # 表 格 形式 呈现 数据 


Hik KAB KG Ae FE 
inputfile$date=as.numeric (inputfile$date) 
sub=which (is.na (inputf Є11е$ва1ев) ) 
inputfilel= =input file [ -sub， 

inputfil File [sub, | 


# 将 日 期 转换 成 数值 型 变量 
# 识 别 缺 失 值 所 在 行 数 
# 将 数据 集 


e2=inputfi 
MANEK ACR kk А, 结果 转 存 
resultl=inputfilel 


# 均 值 替换 法 处 理 缺 失 ， 结 果 转 存 avg_sales=mean (inputfilelSsales) ## Ж 


量 未 缺失 部 分 的 均值 


inputfile2$sales=rep (avg sales, n) PIBA те 
result2=rbind (inputfilel, i putri 1е2) # 并 入 完成 插 补 的 数据 
# 回 归 播 补 法 处 理 缺 失 ， 结 果 转 存 
подӢе1=1т (sales~date, data=inputfile1) # 回 归 模 型 拟 合 
inputfile2$sales=predict (model, inputfile2) # 模 型 预测 
result3=rbind о lel, inputfile2) 
# 多 重 插 补 法 处 理 缺 失 ， 结 点 果 转 存 

ibrary (lattice) # 调 入 函数 包 


library (MASS) 
library (nnet) 


library (mice) # 前 三 个 包 是 mice 的 基础 


imp=mice (inputfile, m=4) #4 重 插 补 ， 即 生成 4 个 无 缺失 数据 集 
fit=with (imp, lm (sales~date, data=inputfile) ) # 选 择 插 补 模型 
pooled=pool (fit) 


summary (pooled) 
result4=complete (imp, action=3) 


# 选 择 第 三 个 插 补 数据 集 作为 结果 


分 成 完整 数据 和 缺失 数据 两 部 分 


* 代 码 详 见 : 示例 程序 /code/missing data_processing.R 


执行 上 面 的 代码 后 ，R 的 图 形 窗口 有 如 图 4-2 所 示 的 输出 。 
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图 4-2 及 的 图 形 窗 口 的 输出 


利用 均值 替换 法 、 回 归 插 补 法 和 多 重播 补 法 对 缺失 值 进行 插 补 ， 得 出 插值 结果 如 表 4-2 所 示 。 


表 4-2 三 种 插 补 法 的 插值 结果 


Н 期 原始 值 均值 替换 值 回归 揪 补 值 多 重 插 补 值 


在 进行 插值 之 前 会 对 数据 进行 异常 值 检 测 ， 发 现 2015 年 2 月 21 日 的 数据 是 异常 的 (数据 远大 于 5000) ， 所 以 也 把 此 日 期 数据 定义 为 空缺 值 ， 进 行 补 数 。 利 用 均值 蔡 换 法 、 回 归 插 补 法 及 多 重播 补 法 对 
2015 年 2 月 21 日 和 2015 年 2 月 14 日 的 数据 进行 插 补 ， 结 果 如 表 4-2 所 示 。 考 虑 到 这 两 天 都 是 周末 ， 而 周末 的 销售 额 一 般 要 比 周 一 到 周 五 多 ， 所 以 插值 结果 比较 符合 实际 情况 。 


412 ЯВ 


ЕВА ВБ АВН ТАЕ, RAKAR ВАМА АЈ. ТЕКЕН, (24 %аоїсһагї () . бохріої () 实现 绘制 单 变量 散 点 图 与 箱 形 图 (具体 应 用 见 3.3.2 节 内 
容 ) ， 图 3-16 中 远离 正常 值 范 围 的 点 即 视 为 异常 值 。 异 常 值 产生 最 常见 的 原因 是 人 为 输入 的 错误 ， 如 小 数 点 输入 错误 ,会 把 123.00g 变 成 12300g。 


在 数据 预 处 理 时 ， 异 常 值 是 否 剔除 ， 需 视 具 体 情况 而 定 ， 因 为 有 些 异 常 值 可 能 歼 含 着 有 用 的 信息 。 异 常 值 处 理 常 用 方法 如 表 4-3 所 示 。 


ЖАЗ ”异常 值 处理 常 用 方法 


异常 值 处 理 方法 方法 描述 
MERR A F AANER HERR E A w IR BJ oK MEER 
视 为 缺失 值 将 异常 值 视 为 缺失 值 ， 利 用 缺失 值 处 理 的 方法 进行 处 理 
平均 值 修正 可 用 前 后 两 个 观测 值 的 平均 值 修正 该 异 兽 值 
不 处 理 下 接 在 具有 寞 兽人 的 数据 集 上 进行 挖 据 建 模 


将 含有 异常 值 的 记录 直接 删除 这 种 方法 简单 易 行 ， 但 缺点 也 很 明显 ， 在 观测 值 很 少 的 情况 下 ， 这 种 删除 会 造成 样本 量 不 足 ， 可 能 会 改变 变量 的 原 有 分 布 ， 从 而 造成 分 析 结 果 的 不 准确 。 视 为 缺失 值 处 理 
的 好 处 是 可 以 利用 现 有 变量 的 信息 ， 对 异常 值 (缺失 值 ) 进行 填补 。 


很 多 情况 下 ， 要 先 分 析 异 常 值 出 现 的 可 能 原因 ， 表 判断 异常 值 是 否 应 该 舍弃 ， 如 果 是 正确 的 数据 ， 可 以 直接 在 具有 异常 值 的 数据 集 上 进行 挖 扎 建 模 。 


42 ”数据 集成 


数据 挖掘 需要 的 数据 往往 分 布 在 不 同 的 数据 源 中 ， 数 据 集成 就 是 将 多 个 数据 源 合 并 存放 在 一 个 一 致 的 数据 存储 (如 数据 仓库 ) 中 的 过 程 。 


在 R 中 ， 数 据 集成 是 指 将 存储 在 两 个 数据 框 中 的 数据 以 关键 字 为 依据 ， 以 行为 单位 做 列 向 合并 ， 可 通过 函数 merge () 实现 ， 基 本 书写 形式 为 merge (数据 框 1， 数 据 框 2，by= “关键 字 ”) ， 合 并 后 
的 新 数据 自动 按 关 键 字 取 值 的 大 小 升序 排列 。 


在 数据 集成 时 ， 来 自 多 个 数据 源 的 现实 世界 实体 的 表达 形式 是 不 一 样 的 ， 有 可 能 不 匹配 ， 要 考虑 实体 识别 问题 和 属性 元 余 问 题 ， 从 而 将 源 数据 在 最 低层 上 加 以 转换 、 提 炼 和 集成 。 


4.2.1 实体 识别 
实体 识别 是 从 不 同 数据 源 识别 出 现实 世界 的 实体 ， 它 的 任务 是 统一 不 同 源 数据 的 矛盾 之 处 ， 常 见 的 矛盾 有 如 下 几 个 。 
(1) 同名 异 义 
数据 源 A 中 的 属性 ID 和 数据 源 B 中 的 属性 1D 分 别 描述 的 是 菜品 编号 和 订单 编号 ， 即 描述 的 是 不 同 的 实体 。 
(2) 异 名 同 义 
数据 源 A 中 的 sales_dt 和 数据 源 B 中 的 sales_date 都 是 描述 销售 日 期 的 ， 即 A.sales dt=B.sales date, 
(3) 单位 不 统一 
描述 同一 个 实体 分 别 用 的 是 国际 单位 和 中 国 传统 的 计量 单位 。 
检测 和 解决 这 些 冲突 就 是 实体 识别 的 任务 。 
422 ”元 余 属性 识别 
数据 集成 往往 导致 数据 元 余 ， 如 : 
1) 同一 属性 多 次 出 现 ; 
2) 同一 属性 命名 不 一 致 ， 导 致 重复 。 
仔细 整合 不 同 源 数据 能 减少 甚至 避免 数据 见 余 与 不 一 致 ， 从 而 提高 数据 挖掘 的 速度 和 质量 。 对 于 匈 余 属性 要 先 分 析 ， 检 测 到 后 再 将 其 删除 。 


有 些 见 余 属性 可 以 用 相关 分 析 检 测 。 给 定 两 个 数值 型 的 属性 A 和 B， 根 据 其 属性 值 ， 用 相关 系数 度量 一 个 属性 在 多 大 程度 上 蕴 合 另 一 个 属性 ， 相 关系 数 介绍 见 3.2.6 节 。 


43 ”数据 变换 
数据 变换 主要 是 对 数据 进行 规范 化 处 理 、 连 续 变量 的 离散 化 以 及 变量 属性 的 构造 ， 将 数据 转换 成 “适当 的 ”形式 ， 以 满足 挖掘 任务 及 算法 的 需要 。 


4.3.1 Тарда 


简单 函数 变换 是 对 原始 数据 进行 某 些 数学 函数 变换 ， 常 用 的 包括 平方 、 开 方 、 取 对 数 、 差 分 运算 等 ， 即 : 


х= к (4-1) 
y'= Vx (4-2) 


х' = log(x) (4-3) 
ү) ж Жы) = Jx, ) (4-4) 


简单 的 函数 变换 常用 来 将 不 具有 正 态 分 布 的 数据 变换 成 具有 正 态 分 布 的 数据 ; 在 时 间 序 列 分 析 中 ， 有 时 简单 的 对 数 变换 或 者 差分 运算 就 可 以 将 非 平 稳 序 列 转换 成 平稳 序列 。 在 数据 挖掘 中 ， 简 单 的 函数 
变换 可 能 更 有 必要 ， 如 个 人 年 收入 的 取 值 范围 为 1 万 ~10 人 元， 这 是 一 个 很 大 的 区 间 ， 使 用 对 数 变 换 对 其 进行 压缩 是 常用 的 一 种 变换 处 理 。 
4.3.2 #5510 


数据 规范 化 〈 归 一 化 ) 处 理 是 数据 挖掘 的 一 项 基础 工作 。 不 同 评价 指标 往往 具有 不 同 的 量 纲 ， 数 值 间 的 差别 可 能 很 大 ， 不 进行 处 理 可 能 会 影响 到 数据 分 析 的 结果 。 为 了 消除 指标 之 间 的 量 纲 和 取 值 范围 
差异 的 影响 ， 需 要 进行 标准 化 处 理 ， 将 数据 按照 比例 进行 缩放 ， 使 之 落 入 一 个 特定 的 区 域 ， 便 于 进行 综合 分 析 。 例 如 ， 将 工资 收入 属性 值 映 射 到 [-1, 1] 或 者 [0, 1] A. 


数据 规范 化 对 于 基于 距离 的 挖掘 算法 尤为 重要 。 
(1) 最 小 -最 大 规范 化 
最 小 -最 大 规范 化 也 称 为 离 差 标准 化 ， 是 对 原始 数据 的 线性 变换 ， 将 数值 映射 到 [0，1] 。 


转换 公式 如 下 : 


mi _ (4-5) 
шах 一 піп 


式 中 ，max 为 样本 数据 的 最 大 值 ，min 为 样本 数据 的 最 小 值 。max-min 为 极 差 。 离 差 标 准 化 保留 了 原来 数据 中 存在 的 关系 ， 是 消除 量 纲 和 数据 取 值 范围 影响 的 最 简单 方法 。 这 种 处 理 方法 的 缺点 是 若 数 值 集 
中 且 某 个 数值 很 大 ， 则 规范 化 后 各 值 会 接近 于 0， 并 且 将 会 相差 不 大 。 若 将 来 遇 到 超过 目前 属性 [min, max] 取 值 范围 时 ,会 引起 系统 出 错 ， 需 要 重新 确定 min 和 max。 


(2) 零 -均值 规范 化 


零 -均值 规范 化 也 叫 标准 差 标 准 化 ， 经 过 处 理 的 数据 的 均值 为 0%， 标 准 差 为 |。 转化 公式 为 : 


式 中 ，x 为 原始 数据 的 均值 ，o 为 原始 数据 的 标准 差 。 这 种 方法 是 当前 用 得 最 多 的 数据 的 标准 化 方法 ， 但 是 均值 和 标准 差 受 离 群 点 的 影响 很 大 ， 因 此 通常 需要 修改 上 述 变 换 。 首 先 用 中 位 数 M 取 代 均 值 ， 其 次 


i=n 


用 绝对 标准 差 取代 标准 差 ” 5 È 


Ix, -w 


，W 是 平均 数 或 者 中 位 数 。 
(3) 小 数 定 标 规范 化 


通过 移动 属性 值 的 小 数位 数 ， 将 属性 值 映 射 到 [-1, 1] ， 移 动 的 小 数位 数 取 决 于 属性 值 绝对 值 的 最 大 值 。 转 化 公式 为 : 


i x 
x = — 4-7 
i 10° ) 


下 面 通过 对 一 个 矩阵 使 用 上 面 三 种 规范 化 的 方法 对 其 进行 处 理 ， 对 比 结果 。 其 程序 如 代码 清单 4-2 所 示 。 
代码 清单 4-2 ”数据 规范 化 代码 


НХ E TL 4 [а] 

# 把 “数据 及 程序 ”文件 夹 复 制 到 FE 盘 下 ， 再 用 setwd 设 置 工作 空间 

setwd ("F: /数据 及 程序 chapter4/ 示 例 程序 ") 

# 读 取 数 据 

data=read.csv ('./data/normalization data.csv', he=F) 

# 最 小 -最 大 规范 化 

bl= (data [, 1] -min (data [, 1] ) ) / (max (data [, 1] ) -min (data [, 1])) 


р2= (data [, 2] -min (data [, 2] ) ) / (max (data [, 2] ) -min (data [, 2] ) ) 
b3= (data [, 3] -min (data [, 3] ) ) / (max (data [, 3] ) -min (data [, 3] ) ) 
р4= (data [, 4] -min (data [, 4] ) ) / (max (data [, 4] ) -min (data [, 4] ) ) 
data а па (b1, b2, b3, b4) 


ЫЎ к. 

ore= a (data) 
н ,就 定 标 规范 它 化 
il=ceiling (1 °з ~ (abs (data [, 1 
cl=data [, 1] 
i2=ceiling a (тах (abs (data [, 2 
c2=data [, 2 ñi 
i3=ceiling (log (max (abs (data Г, 31) ) ， 
c3=data [, 3] /10^13 
i4=ceiling (log Я (abs (data Г, 4] ) ) 10) ) 
c4=data [, 4) ^1 
. dot= bi nd "a c2, c3, c4) 
#4тїр 25 Ж 
opti С (digits = # 控 制 输出 结果 的 有 效 位 数 


data; data scatter; data zscore; data dot 


1)),‚10)) # 小 数 定 标的 指数 
1.52 10) ) 
10) ) 


* 代 码 详 见 : 示例 程序 /code/data_normalization.R 


执行 上 面 的 代码 后 ， 可 以 在 命令 行 看 到 如 图 4-3 所 示 的 输出 。 
} 别 用 最 小 -最 大 规范 化 、 零 -均值 规范 化 、 小 数 定 标 规范 化 进行 规范 化 后 的 数据 如 图 4-3 所 示 。 


对 于 一 个 含有 n 个 记录 、P 个 属性 的 数据 集 ， 分 别 对 每 一 个 属性 的 取 值 进行 规范 化 。 对 原始 的 数据 矩阵 分 


4.3.3 ”连续 属性 离散 化 


一 些 数 据 挖掘 算法 ， 特 别 是 某 些 分 类 算法 (如 ID3 算 法 、Apriori 算 法 等 ) ， 要 求 数据 是 分 类 属性 形式 。 这 样 ， 需要 将 连续 属性 变换 成 分 类 属性 ， 即 连续 属性 离散 化 。 
1. 离 散 化 的 过 程 
连续 属性 的 离散 化 就 是 在 数据 的 取 值 范围 内 设 定 若干 个 离散 的 划分 点 ， 将 取 值 范围 划分 为 一 些 离散 化 的 区 间 ， 最 后 用 不 同 的 符号 或 整数 值 代表 落 在 每 个 子 区 间 中 的 数据 值 。 所 以 ， 离 散 化 涉及 两 个 子 任 
务 : 确定 分 类 数 以 及 如 何 将 连续 属性 值 映射 到 这 些 分 类 值 。 


м4 
2863 
2245 
-1283 
1054 
2051 
2487 
2571 


үг 
921 
600 
-457 
596 
эё T 
403 
413 


МЗ 
602 
-521 
468 
695 
691 
470 


T 146 435 


b1 D2 b3 b4 


0.07438 
0. 61983 
0.21488 
0. 00000 
1. 00000 
О. 26446 
0.63636 


(1, Ј 
[2, ] 
3, ] 
Lt, 1 
15, 1 
16, ] 
17, ] 


Vi 
[1,1 


=0 . 9054 0. 


0.9373 
0.0000 
0.1196 
1.0000 
0.9423 
0.8386 
0.8470 


V2 
6359 


0.9235 
о. 0000 
0.8133 
1.0000 
0.9967 
0.8150 
0.7862 


1.0000 
0.8509 
0.0000 
U. 96317 
0.8041 
0.9093 
0.9296 


Үз 


0.46453 


Ya 


0.7981 


[2,] 0.6047 -1.5877 -2.19317 0.3694 
[3.] -0.5164 -1.3040 0.14741 -2.0783 
[号 ，〗 -1.1113 0.768246 0.68463 -0.4569 
ГӘ, ] 1.6571 0.6478 0.67516 0.2348 
[6,1] -0.3791 0.4018 0.15214 0,5373 
[7;] 0.6504 0.4216 0.06931 0.5956 


ci Ca c3 c4 
[1,1 0.078 0.521 0.602 0.2863 
[2,] 0.144 -0.600 -0.521 0.2245 
[3,] 0.095 -0.457 0.468 -0.1283 
[W] 0-063 .33 0:693 0.1054 
[5,1 0-190 0.527 0.691 0.20531 
[5.1 0.101 0.403 0.470 0.2487 
[7;] 0.146 0.413 0,435 0.2571 


94-3 ”输出 结果 
2. 常 用 的 离散 化 方法 
常用 的 离散 化 方法 有 等 完 法 、 等 频 法 和 (一 维 ) 聚 类 。 
(1) 等 宽 法 
该 法 将 属性 的 值 域 分 成 具有 相同 宽度 的 区 间 ， 区 间 的 个 数 由 数据 本 身 的 特点 决定 ， 或 者 由 用 户 指定 ， 类 似 于 制作 频率 分 布 表 。 
(2) 等 频 法 
该 法 将 相同 数量 的 记录 放 进 每 个 区 间 。 


这 两 种 方法 简单 ， 易 于 操作 ， 但 都 需要 人 为 地 规定 划分 区 间 的 个 数 。 同 时 ， 等 宽 法 的 缺点 在 于 它 对 离 群 点 比较 敏感 ， 倾 向 于 不 均匀 地 把 属性 值 分 布 到 各 个 区 间 。 有 些 区 间 包 含 许多 数据 ， 而 另外 一 些 区 
间 的 数据 极 少 ， 这 样 会 严重 损坏 建立 的 决策 模型 。 等 频 法 虽然 避免 了 上 述 问题 的 产生 ， 却 可 能 将 相同 的 数据 值 分 到 不 同 的 区 间 以 满足 每 个 区 间 中 固定 的 数据 个 数 。 


(3) (一 维 ) RX 


(一 维 ) 聚 类 的 方法 包括 两 个 步骤 ， 首 先 将 连续 属性 的 值 用 聚 类 算法 (如 K-Means 算 法 ) 进行 聚 类 ， 然 后 再 将 聚 类 得 到 的 篮 进 行 处 理 ， 合 并 到 一 个 篮 的 连续 属性 值 并 做 同一 标记 。 聚 类 分 析 的 离散 化 方 
法 也 需要 用 户 指定 簇 的 个 数 ， 从 而 决定 产生 的 区 间 数 。 


下 面 使 用 上 述 三 种 离散 化 方法 对 “医学 中 中 医 证 型 的 相关 数据 ”进行 连续 属性 离散 化 的 对 比 ， 该 属性 的 示例 数据 如 表 4-4 所 示 。 


表 4-4 ”中医 证 型 连续 属性 离散 化 数据 


肝气 秀 第 证 型 系数 0.056 О. 488 О. 107 0. 322 0. 242 0. 389 


* 数 据 详 见 : 示例 程序 /data/discretization_data.csv 


具体 可 以 参考 第 8 章 中 相关 内 容 ， 其 R 代 码 如 代码 清单 4-3 所 示 。 


代码 清单 4-3 ”数据 离散 化 


## 设置 工 作 空 间 
не l s Ç : 到 F 盘 下 ， 再 用 setwd 设 置 工作 空间 
twd ("F: /数据 及 程序 /chapte ае 
PRETA, a ta=read.csv ('./data/discretization data.csv', header=T) 


eiling (data [, 1] *10) 
TE SIUE 


names (data) =!f"# 变 量 重 命名 

attach (data) 

seq (0, length (f) , length (f) /6) # 等 频 划 分 为 6 组 

у=зог (f) 坦 按 大 小 排序 作为 离散 化 依据 

V2=rep (0, 930) #Z LIRE 

for (i in 1: 930) v2 [i] =ifelse (f [i] <=v [155] , 1, 
ifelse (f [i] <=v [310] , 2, 

ifelse (f [i] <=v [465] , 3, 

ifelse (f [i] <=v [620] , 4, 

felse (f [i] <=v [775] , 5, 6) ) ) ) ) 


H- 


detach (data) 

# 聚 类 离散 化 

result=kmeans (data, 6) 

v3=result$cluster 

# 图 示 结 果 

plot (data [, 1] ，V1，xlab=' 肝 气 郁 结 证 型 系数 ') 
plot (data [, 1] ，V2，xlab=' 肝 和 气 郁结 证 型 系数 ') 
plot (data [, 1] ，V3，xlab=' 肝 气 郁 结 证 型 系数 ') 


* 代 码 详 见 : 示例 程序 /code/data_discretization.R 


运行 上 面 的 程序 ， 可 以 得 到 图 4-4~ 图 4-6 所 示 的 结果 。 


V1 


Ey Dn Ta ж SK Ka ши SX NW xC DK SX ши 


0.1 0.2 0.3 0.4 0.5 
肝气 郁 纺 证 型 系数 
图 4-4 等 宽 离散 化 结果 


T ammam hs OO О ШОО б G 


V2 


0.1 0.2 0.3 0.4 0.5 
肝气 郁结 证 型 系数 


图 4-5 等 频 离 散 化 结果 


ү 

< 二 
Tr] 
> 

єт Ши п юх ш ш үү ш тиш 

C4 

mi ШЕ Со» TT 

0.1 0.2 0.3 0.4 0.5 
= 34 ж Š 
肝气 郁结 证 型 系数 
图 4-6 (一 维 ) 聚 类 离散 化 结果 

分 别 用 等 宽 法 、 等 频 法 和 (一 维 ) 聚 类 对 数据 进行 离散 化 ， 将 数据 分 成 6 类 ， 然 后 将 每 一 类 记 为 同一 个 标识 ， 如 分 别 记 为 A1、A2、A3、A4、A5、A6， 再 进行 建 模 。 


4.3.4 ”属性 构造 
在 数据 挖掘 的 过 程 中 ， 为 了 便于 提取 更 有 用 的 信息 ， 挖 掘 更 深层 次 的 模式 ， 提 高 挖掘 结果 的 精度 ， 需 要 利用 已 有 的 属性 集 构造 出 新 的 属性 ， 并 加 入 到 现 有 的 属性 集合 中 。 


例如 ， 进 行 防 窃 漏 电 诊 断 建 模 时 ， 已 有 的 属性 包括 供 入 电量 、 供 出 电量 (线路 上 各 大 用 户 用 电量 之 和 ) 。 理 论 上 供 入 电量 和 供出 电量 应 该 是 相等 的 ， 但 是 由 于 在 传输 过 程 中 存在 电能 损耗 ， 使 得 供 入 电 
量 略 大 于 供出 电量 ， 如 果 该 条 线路 上 的 一 个 或 多 个 大 用 户 存在 窃 漏 电 行为 ， 会 使 得 供 入 电量 明显 大 于 供出 电量 ( 详 见 线 户 关 系 图 6-1) 。 反 过 来 ， 为 了 判断 是 否 有 大 用 户 存在 窃 漏 电 行为 ， 可 以 构造 出 一 个 新 


线 损 率 ， 该 过 程 就 是 构造 属性 。 新 构造 的 属性 线 损 率 按 如 下 公式 计算 : 
供 入 电量 = 供出 E 
r [7 = Æ x ШЦ ° BE iTA rr ; "р ^ 
Е = mn 09 (4-8) 
EAEE 


线 损 率 的 正常 范围 一 般 在 3%~15%， 如 果 远 远 超过 该 范围 ， 就 可 以 认为 该 条 线路 的 大 用 户 很 可 能 存在 窃 漏 电 等 用 电 异 常 行为 。 


的 指标 


根据 线 损 率 的 计算 公式 ， 由 供 入 电量 、 供 出 电量 进行 线 损 率 的 属性 构造 ， 如 代码 清单 4-4 所 示 。 


代码 清单 4-4” 线 损 率 属性 构造 ## 设 置 工作 空间 


## 设 置 工作 空间 
# 把 “数据 及 程序 ”文件 夹 复制 到 F 盘 下 ， 再 用 setwd 设 置 工作 空间 
setwd ("F: /数据 及 程序 /chapter4/ 示 例 程序 ") 


# 数 据 读 取 

inputfile=read.csv ('./data/electricity data.csv', he=T) 

# 构 造 属性 

loss=100* (inputfile [, 1] -inputfile [, 2] ) /inputfile [, 1] # 数 据 第 一 列 为 供 入 电量 ， 第 二 列 为 供出 电量 


# 保 存 结 果 
outputfile=data.frame (inputfile, '%4йЖ% (%) '=1055) # 变 量 重 命名 ， 存 入 数据 


* 代 码 详 见 : 示例 程序 /code/line_tate_construct.R 


4.3.5 ”小 波 变换 


小 波 变 换 [UI 是 一 种 新 型 的 数据 分 析 工 具 ， 是 近年 来 兴起 的 信号 分 析 手 段 。 小 波 分 析 的 理论 和 方法 在 信号 处 理 、 图 像 处 理 、 语 音 处 理 、 模 式 识别 、 量 子 物 理 等 领域 得 到 越 来 越 广泛 的 应 用 ， 它 被 认为 是 
近年 来 在 工具 及 方法 上 的 重大 突破 。 小 波 变换 具有 多 分 辩 率 的 特点 ， 在 时 域 和 频 域 都 具有 表征 信号 局 部 特征 的 能 力 ， 通 过 伸缩 和 平移 等 运算 过 程 对 信号 进行 多 尺度 聚焦 分 析 ， 提 供 了 一 种 非 平稳 信号 的 时 频 
分 析 手 段 ， 可 以 由 粗 及 细 地 逐步 观察 信号 ， 从 中 提取 有 用 信息 。 

能 够 刻画 某 个 问题 的 特征 量 往往 是 隐 含 在 一 个 信号 中 的 某 个 或 者 某 些 分 量 中 ， 小 波 变 换 可 以 把 非 平稳 信号 分 解 为 表达 不 同 层 次 、 不 同 频带 信息 的 数据 序列 ， 即 小 波 系数 。 选 取 适 当 的 小 波 系 数 ， 即 完成 


了 信号 的 特征 提取 。 下 面 将 介绍 基于 小 波 变 换 的 信号 特征 提取 方法 。 
(1) 基于 小 波 变 换 的 特征 提取 方法 
基于 小 波 变 换 的 特征 提取 方法 主要 有 : 基于 小 波 变 换 的 多 尺度 空间 能 量 分 布 特征 提取 、 基 于 小 波 变 换 的 多 尺度 空间 的 模 极 大 值 特征 提取 、 基 于 小 波 包 变换 的 特征 提取 、 基 于 适应 性 小 波 神经 网 络 的 特征 
提取 ， 如 表 4-5 所 示 。 


表 4-5 基于 小 波 变换 的 特征 提取 方法 


基于 小 波 变换 的 特征 提取 方法 


基于 小 波 变 换 的 多 尺度 空 
间 能 量 分 布 特征 提取 方法 


基于 小 波 变换 的 多 尺度 空 
间 的 模 极 大 值 特征 提取 方法 


基于 小 波 包 变 换 的 特征 提 


基于 适应 性 小 波 神经 网 络 
的 特征 提取 方法 


(2) Лур 


方法 描述 
各 尺度 空间 内 的 平滑 信号 和 细节 信号 能 提供 原始 信号 的 时 频 局 域 信 息 ， 特 别 是 能 
提供 不 同 频段 上 信号 的 构成 信息 。 把 不 同 分 解 尺度 上 信号 的 能 量 求解 出 来 ， 就 可 以 
将 这 些 能 量 尺度 顺序 排列 ， 形 成 特征 向 量 供 识别 用 
利用 小 波 变换 的 信号 局 域 化 分 析 能 力 ， 求 解 小 波 变换 的 模 极 大 值 特性 来 检测 信号 的 局 
部 奇异 性 ， 将 小 波 变换 模 极 大 值 的 尺度 参数 *、 平 移 参 数 : 及 其 枉 值 作为 目标 的 特征 量 
利用 小 波 分 解 ， 可 将 时 域 随机 信号 序列 映射 为 尺度 域 各 子 空 间 内 的 随机 系数 序列 ， 
按 小 波 包 分 解 得 到 的 最 佳 子 空间 内 随机 系数 序列 的 不 确定 性 程度 最 低 ， 将 最 佳 子 空间 
的 炳 值 及 最 佳 子 空间 在 完整 二 叉 树 中 的 位 置 参 数 作为 特征 量 ， 可 以 用 于 目标 识别 
基于 适应 性 小 波 神经 网 络 的 特征 提取 方法 可 以 把 信号 通过 分 析 小 波 拟 合 表示 ， 进 
行 特征 提取 


小 波 基 范 数 是 一 种 具有 局 部 支 集 的 函数 ， 并 且 平均 值 为 0， 小 波 基 函 数 满足 %) = joao, JANEE SHar NEE., dIE., Нааг/Ју ЫБА АП 4-7Етлт. 


Һагг (t) 


| .> 


1.0 


0.5 


0.0 


-0.3 


—1.5 | 
0 0.5 
і 


а) Нааг Ы 


(3) 小 波 变 换 


对 小 波 基 范 数 进 行 伸缩 和 平移 变换 : 


i (t) = 


式 中 ，a 为 伸缩 因子 ; b 为 平移 因子 。 


任意 函数 f (t) 的 连续 小 波 变换 (CWT) 为 : 


W(a,b) = |a| | ( “jd: 


| 
可 知 ， 连 续 小 波 变 换 为 f (t) 一 Wf (а, b) KIRST, Я]ЛМБ ВА Ш (t) 增加 约束 条 件 Cu=| 


其 逆 变 换 为 : 


x10° harr 频 域 ( 站 ) 


0 5 10 15 
f x ] 0" 
b) Haar 频 域 


图 4-7 Hark Až 


(4-9) 


(4-10) 


фо) < Фо ^ 
г< 就 可 以 由 Wf (а, b) 逆 变 换 得 到 f(t) „ Жн, Фр (t) КО ЕЧ, 


` — ES p? 7 | Ë — b я ' - 
ЖЕЙ = g7) [FVD 2) 4а » db (4-11) 


能 量 分 布 特征 提取 方法 。 
N 


频带 分 析 ， 再 分 别 以 计算 所 得 的 各 个 频带 的 能 量 作为 特征 向 量 。 


下 面 介 绍 基 于 小 波 变 换 的 多 尺度 空间 


(4) 基于 小 波 变换 的 多 尺度 空间 能 量 分 布 特征 提取 方法 
能 量 分 布 特征 提取 方法 是 对 信号 进行 


应 用 小 波 分 析 技 术 可 以 把 信号 在 各 频率 波段 中 的 特征 提取 出 来 ， 基 于 小 波 变 换 的 多 尺度 空间 


言 号 f (t) 的 二 进 小 波 分 解 可 表示 为 : 


Ко) = А + Ур! 


D 是 细节 信和 号， 为 高 频 部 分 ， 此 时 信 


为 低频 部 分 ; 
= 


号 的 频带 分 布 如 图 4-8 所 示 。 


式 中 ，A 是 近似 信和 号， 


3 


图 4-8 多 尺度 分 解 的 信号 频带 分 布 


Е = EA, + XED, (4-13) 
选择 第 j 层 的 近似 信号 和 各 层 的 细节 信号 的 能 量 作为 特征 ， 构 造 特征 向 量 : 
Е = [EA,,ED,,ED,,.…ED,) (4-14) 


利用 小 波 变 换 可 以 对 声波 信号 进行 特征 提取 ， 提 取出 可 以 代表 声波 信号 的 向 量 数据 ， 即 完成 从 声波 信和 号 到 特征 向 量 数据 的 变换 。 本 例 利用 小 波 函 数 对 声波 信号 数据 进行 分 解 ， 得 到 4 个 层次 的 小 波 系数 。 
其 程序 实现 如 代码 清单 4-5 所 示 。 


代码 清单 4-5 ”小 波 变 换 特 征 提取 代码 # 数 据 生 成 ， 信 号 模拟 


# 数 据 生 成 ， 信 号 模拟 
N=1024; k=6 # 参 数 赋值 
х=( (1: N) - N/2) *2*pi*k/N 


y=ifelse ( x>0, sin (x) , sin (3*x) ) #%|] JRI I5 Ёсе е; I R 
signal=y+rnorm (N) /10 # 添 加 扰动 项 ， 生 成 信号 变量 
## 调 用 函数 包 


library (waveslim) 

# 对 信号 进行 小 波 分 解 

d=dwt (signal , n.levels=4) 

# 输 出 各 层 小 波 系数 

data.frame (4541, 4542, d$d3, d$d4) 


* 代 码 详 见 : 示例 程序 /code/wave_analyze.R 
运行 上 面 的 代码 可 以 得 到 模拟 的 信号 分 解 为 4 层 后 各 层 的 小 波 系数 结果 为 512x4 的 数据 框 。 


] 张 静 远 ， 张 冰 ， 薪 方舟 .基于 小 波 变 换 的 特征 提取 方法 分 析 [J 2000: 1-8. 
2] 张 良 均 ， 王 靖 涛 ， 李 国 成 .小 波 变 换 在 柱 基 完整 性 检测 中 的 应 用 [J] .2002: 1-2. 


44 ”数据 规约 
在 大 数据 集 上 进行 复杂 的 数据 分 析 和 挖掘 将 需要 很 长 的 时 间 ， 数 据 规 约 可 以 产生 更 小 的 但 保持 原 数据 完整 性 的 新 数据 集 。 在 规约 后 的 数据 集 上 进行 分 析 和 挖掘 将 更 有 效率 。 
数据 规约 的 意义 在 于 : 
` 降低 无 效 、 错 误 数 据 对 建 模 的 影响 ， 提 高 建 模 的 准确 性 ; 
少量 且 具 代表 性 的 数据 将 大 幅 缩 减 数据 挖 据 所 需 的 时 间 ; 


` 降低 储存 数据 的 成 本 。 


4.4.1 ”属性 规约 


属性 规约 通过 属性 合并 来 创建 新 属性 维 数 ， 或 者 直接 通过 删除 不 相关 的 属性 ( 维 ) 来 减少 数据 维 数 ， 从 而 提高 数据 挖掘 的 效率 、 降 低 计 算 成 本 。 属 性 规约 的 目标 是 寻找 出 最 小 的 属性 子 集 并 确保 新 数据 
子 集 的 概率 分 布 尽 可 能 地 接近 原来 数据 集 的 概率 分 布 。 属 性 规约 常用 方法 如 表 4-6 所 示 。 


表 4-6 属性 规约 常用 方法 


属性 规约 方法 


合并 属性 


J A Ta EË 


将 一 些 旧 属性 合 为 新 属性 


从 性 集 开 始 ， 每 次 从 原来 属 


-个 空 属 


性 集合 中 选择 一 个 当前 最 优 的 属性 添加 


优 属性 或 满足 


Kz [т] J к 


决策 树 归 纳 


主 成 分 分 析 


逐步 向 前 选择 、 


间 基 底下 数据 的 相关 性 ， 只 需 使 用 少数 新 变量 


进行 建 模 。 
主 成 分 分 析 !1 的 计算 步骤 如 下 : 
1) 设 原始 变量 X1，X2， 


Ж уу x 


到 当前 属性 子 集中 。 直 到 无 法 选择 出 最 
E BRAZI RAIE 


从 一 个 全 属性 集 开 始 ， 每 次 从 当前 属性 
子 集中 选择 一 个 当前 最 差 的 属性 并 将 其 从 
当前 属性 子 集中 消去 。 直 到 无 法 选择 出 最 
差 必 性 为 止 或 满足 一 冠 国 值 约 束 为 目 


利用 决策 树 的 归纳 方法 对 初始 数据 进 
行 分 类 归纳 学习 ， 获 得 一 个 初 妈 决 案 树 ， 
所 有 没有 出 现在 这 个 决策 树 上 的 属性 均 
可 认为 是 无 关 属 性 ， 因 此 将 这 些 属 性 从 


始 集合 中 删除 ， 就 可 以 获得 一 个 较 优 


的 属性 子 集 


用 较 少 的 变量 去 解释 原 怒 数 据 中 的 大 
部 分 变量 


转化 成 Т 此 相互 独立 或 不 相关 的 变量 


逐步 向 后 删除 和 决策 树 归 纳 是 属于 直接 删除 不 相关 属性 (E) 方法 。 主 成 分 分 析 是 一 种 用 于 连 乡 


常 是 选 出 比 原始 变量 个 数 少 ， 能 解释 大 部 分 数据 中 的 变 


就 能 够 解释 原始 数据 中 的 大 部 分 变异 。 在 应 用 中 ， 通 常 


.Xp 的 n 次 观测 数据 和 矩阵 为 : 


12 8 Zip 
š „Жыл, x. 
22 2n _ x 
И н ДЕ (x, ‚А, ` 
nz i е Ар 


2) 将 数据 矩阵 按 列 进行 中 心 标准 化 。 为 了 方便 ， 将 标准 化 后 的 数据 矩阵 仍然 记 为 X。 


3) 求 相关 系数 矩阵 R，R= (rj) рер, ri 的 定义 为 : 


P, njani rj=1, 


4) 求 R 的 特征 方程 det (R-AE) 


ХА 
5) 确定 主 成 分 个 数 ** 


= wi) ( XT s) / N 2. E7 


即 将 许多 相关 性 很 高 的 变量 


方法 解析 
初始 属 Е. 4, ， А,, Az, Àa, В|, B, , b; ， C! 
A; ' A, з А, А i- | —A (В, 3 b. n В, —+ |5 
一 规约 后 属性 集 : (A, В, C| 


HJU 属性 集 : 1 А» 3 Ад, А; ‚ Ас | | | 
= | А, | | => | А, к A ' 
一 规约 后 属性 集 : 1А, А, А„] 


DRBR: (A, A 


= |А,, А, A, , As, А, | 


= +Á... Ал» As. "1 
一 规约 后 属性 集 : | 


初始 属性 集 : 


Aa + А, 


А, 5 Аз 3 А, 3 А; ' А, ) 


ГЕМ, ТАТАЖ 


征 维 方 法 ， 它 构造 了 原始 数据 的 一 个 正 交 变换 ， 新 空间 的 基底 去 除了 原始 空 
量 的 几 个 新 变量 ， 即 所 谓 主 成 分 ， 来 代 蔡 原始 变量 


卖 属性 的 数据 |P 


pA (4-15) 


=0 的 特征 根 和 1> 和 2>... 和 p>0。 


”，a 根 据 实际 问题 确定 ， 一 般 取 80%。 


6) 计算 m 个 相应 的 单位 特征 向 量 : 


с) (4-16) 


B, = a] | 8, = ул | а В. ч n2 (4-17) 


7) 计算 主 成 分 
А = Brae ЕВ, T аА. t =m L 2 @ s m (4-18) 


使 用 主 成 分 分 析 降 维 的 程序 如 代码 清单 4-6 所 示 。 
代码 清单 4-6 主 成 分 分 析 降 维 代码 


## 设 置 工作 空间 

# 把 “数据 及 程序 ”文件 夹 复制 到 F 盘 下 ， 再 用 setwd 设 置 工作 空间 

setwd ("Е: /数据 及 程序 chapter4/ 示 例 程 序 ! ') 

# 数 据 读 取 

inputfile=read.csv ('./data/principal component.csv', he=F) 
# 主 成 分 分 析 PCA=princomp (inputfile, cor=F) 


names (РСА) # 查 看 输出 项 (PCASsdev) ^2 # 主 成 分 特征 根 
summary (PCA) # 主 成 分 贡献 率 

PCA$l1oadings FER 分 载荷 

PCASscores # 主 成 分 得 分 


* 代 码 详 见 : 示例 程序 /code/principal_component_analyze.R 
运行 上 面 的 代码 可 以 得 到 下 面 的 结果 。 成 分 特征 根 : 


成 分 特征 根 : Comp .1Comp .2Comp .3Comp .4Comp .5Comp . 6Comp .7Comp .8 
372.09375 75.45098 20.55592 11.56931 0.72244 0.19758 0.09986 0. s r Comp. 1Comp. .2Comp .3Comp . 4Comp . 5SComp . 6Comp . /Comp. 8 
V1 0.568 0.648 -0.451 0.194 101 


V2 0.228 0.247 0.238 =0.902 

V3 0.233 =0,171 -=0.177 =0.127 =0.126 -0:156 -0.910 

V4 0.224 -0.209 -0.118 -0.643 0.570 =0.343 0.188 

VD 0.336 -0.361 0.390 0.526 0.566 

V6 0.437 -0.559 -0.201 -0.126 0.107 -0.523 -0.190 0.346 

V7 -0.112 -0.632-0.3120.699 

V8 0.465 0.8070.345 累 计 贡 献 率 : Comp .1Comp .2Comp .3Comp .4Comp .5Comp . 6Comp .7Comp .8 


0.774 0.9310 0.97372 0.99779 0.999289 0.999700 0.9999075 1.000е+00 


从 上 面 的 结果 可 以 得 到 特征 方程 det (А-ЛЕ) =0 有 8 个 特征 根 、 对 应 的 8 个 单位 特征 向 量 以 及 累计 贡献 率 。 


当选 取 3 个 主 成 分 时 ， 累 计 贡 献 率 已 达到 97.37%， 选 取 3 个 主 成 分 和 对 应 的 单位 特征 向 量 ， 根 据 式 (4-18) Zi=B1X1+B2ziX2+…B8sX8，i=1，2，3 计 算出 成 分 结果 ， 如 图 4-9 所 示 。 


VI V2 V3 V4 V5 V6 V7 V8 Comp.1 Comp.2 Comp.3 
40.4 24.7 7.2 6.1 8.3 8.7 242 20 8.19 16.90 3.91 
25 12.7 11.2 11 12.9 20.2 3.542 9.1 0.29 648 463 
13.2 3.3 3.9 4.3 4.4 5.5 0.578 3.6 73.71 | -2.85 | :0.50 
22.3 6.7 5.6 3.7 6 7.4 0.176 7.3 14.43 230 | —1.50 
34.3 11.8 7.1 7.1 8 8.9 1.726 27.5 543 10.01 9.52 
35.6 12.5 16.4 16.7 22.8 29.3 3.017 266 [一 > 24.16 —9.36 0.73 
22 7.8 9.9 10.2 12.6 17.6 0.847 106 3.66 -7.60 | —2.36 
48.4 13.4 10.9 9.9 10.9 13.9 1.772 17.8 13.97 13.89 6.45 
40.6 19.1 19.8 19 29.7 39.6 2.449 35.8 40.88 13.26 4.17 
24.8 8 9.8 8.9 11.9 16.2 0.789 13.7 -1.75 | -423 | -0.59 
12.5 9.7 4.2 4.2 4.6 6.5 0.874 3.9 21:94 | -237 1.33 
1.8 0.6 0.7 0.7 0.8 1.1 0.056 1 -36.71  —6.01 3.97 
323 13.9 9.4 8.3 9.8 13.3 2126 171 3.29 4.86 1.00 
38.5 9.1 11.3 9.5 12.2 16.4 1.327 11.6 6.00 419 8.60 


图 4-9 ”成 分 结果 


原始 数据 从 8 维 被 降 维 到 了 3 维 ， 关 系 式 由 式 (4-18) 确定 ， 同 时 这 3 维 数据 占 了 原始 数据 95% 以 上 的 信息 。 


442 ”数值 规约 


数值 规约 通过 选择 替代 的 、 较 小 的 数据 来 减少 数据 量 ， 包 括 有 参数 方法 和 无 参数 方法 两 类 。 有 参数 方法 是 使 用 一 个 模型 来 评估 数据 ， 只 需 存 放 参 数 ， 而 不 需要 存放 实际 数据 ， 如 回归 (线性 回归 和 多 元 
回归 ) 和 对 数 线性 模型 (近似 离散 属性 集中 的 多 维 概率 分 布 ) 。 无 参数 方法 就 需要 存放 实际 数据 ， 如 直方 图 、 聚 类 、 抽 样 (采样 ) 。 


(1) 直方 图 


直方 图 使 用 分 箱 来 近似 数据 分 布 ， 是 一 种 流行 的 数据 规约 形式 。 属 性 A 的 直方 图 将 A 的 数据 分 布 划 分 为 不 相交 的 子 集 或 桶 。 如 果 每 个 桶 只 代表 单个 属性 值 /频率 对 ， 则 该 桶 称 为 单 桶 。 通 常 ， 桶 表示 给 定 
属性 的 一 个 连续 区 间 。R 中 用 遂 数 hist () 绘制 直方 图 ， 用 以 说 明 变 量 取 值 的 分 布 情况 。 


这 里 结合 实际 案例 来 说 明 如 何 使 用 直方 图 做 数值 规约 。 下 面 的 数据 是 某 餐 饮 企业 菜品 的 单价 表 ( 按 人 民 币 取 整 ) ， 从 小 到 大 排序 。 


3, 3, 5, 5, 5, 8, 8, 10, 10, 10, 10, 15, 15, 15, 22, 22, 22, 22, 22, 22, 22, 22, 22, 25, 25, 25, 25, 25, 25, 25, 25, 25, 30, 30, 30, 30, 30, 35, 35, 35, 35, 35, 39, : 


图 4-10 使 用 单 桶 显示 了 这 些 数 据 的 直方 图 。 


10. r 


9 


计数 


图 4-10 ”使 用 单 桶 的 价格 直方 图 (每 个 单 桶 代表 一 个 价值 /频率 对 ) 


为 进一步 压缩 数据 ， 通 常 让 每 个 桶 代表 给 定 属性 的 一 个 连续 值 域 。 在 图 4-11 中 每 个 桶 代表 长 度 为 13 元 的 价值 区 间 。 


15 22 25 


计数 


10 


Fals — 16—28 29-4] 
价格 /元 


图 4-11 价格 的 等 宽 直 方 图 (每 个 桶 代表 一 个 价格 区 间 / 频 率 对 ) 
(2) RŽ 


聚 类 技术 将 数据 元 组 〈 即 记录 ， 数 据 表 中 的 一 行 ) 视 为 对 象 。 它 将 对 象 划分 为 能， 使 一 个 篮 中 的 对 象 相互 “相似 ”， 而 与 其 他 篮 中 的 对 象 “ 相 异 ”。 在 数据 规约 中 ， 用 数据 的 篮 蔡 换 实 际 数据 。 该 技术 
的 有 效 性 依赖 于 簇 的 定义 是 否 符合 数据 的 分 布 性 质 。R 中 常用 的 聚 类 函数 有 hclust () 、kmeans () ， 前 者 在 使 用 系统 聚 类 法 时 使 用 ， 后 者 为 快速 聚 类 的 函数 。 


(3) 抽样 


抽样 也 是 一 种 数据 规约 技术 ， 它 用 比 原始 数据 小 得 多 的 随机 样本 ( 子 集 ) 表示 原始 数据 集 。 假 定 原始 数据 集 D 包 含 N 个 元 组 ， 可 以 采用 抽样 方法 对 D 进 行 抽样 。 下 面 介绍 常用 的 抽样 方法 。 在 R 中 ， 抽 样 
可 以 通过 函数 sample (N, s, replace=T/F) 实现 ， 实 际 中 相当 于 先 从 1~N， 共 N 个 自然 数 中 抽取 s 个 ， 然 后 将 抽 到 的 s 个 自然 数 作为 数据 框 中 观测 的 行 位 置 进行 目标 元 组 的 调 出 ， 抽 样 所 得 新 数据 集 
newD=D [sample (N, s, replace=T/F) ，] 。 


s 个 样本 有 放 回 简单 随机 抽样 : 从 D 的 N 个 元 组 中 抽取 s 个 样本 (s<N) ， 其 中 D 中 任意 元 组 被 抽取 的 概率 均 为 1V/N， 即 所 有 元 组 的 抽取 是 等 可 能 的 ，R 中 对 应 抽样 函数 为 sample (N, s, replace=T) 。 
s 个 样本 无 放 回 简单 随机 抽样 : 该 方法 类 似 于 无 放 回 简单 随机 抽样 ， 不 同 在 于 每 次 一 个 元 组 从 D 中 抽取 后 ， 记 录 它 ， 然 后 放 回 原 处 ， 其 对 应 抽样 函数 为 ample (N, s, replace=F) 。 

聚 类 抽样 : 如 果 D 中 的 元 组 分 组 放 入 M 个 互 不 相交 的 “ 复 ”， 则 可 以 得 到 s 个 篮 的 简单 随机 抽样 ， 其 中 <M。 例 如 ， 数 据 库 中 元 组 通常 一 次 检索 一 页 ， 这 样 每 页 就 可 以 视 为 一 个 篮 。 

分 层 抽样 : 如 果 D 划 分 成 互 不 相交 的 部 分 ， 称 作 层 ， 则 通过 对 每 一 层 的 简单 随机 抽样 就 可 以 得 到 D 的 分 层 样本 。 例 如 ， 可 以 得 到 关于 顾客 数据 的 一 个 分 层 样本 ， 按 照顾 客 的 每 个 年 龄 组 创建 分 层 。 


用 于 数据 规约 时 ， 抽 样 最 常用 来 估计 聚集 查询 的 结果 。 在 指定 的 误差 范围 内 ， 可 以 确定 (使 用 中 心 极 限定 理 ) 估计 一 个 给 定 的 函数 所 需 的 样本 大 小 。 通 常 样本 的 大 小 s 相 对 于 N 非 常 小 。 而 通过 简单 地 增 
加 样本 大 小 ， 这 样 的 集合 可 以 进一步 求 精 。 


(4) 参数 回归 


简单 线性 模型 和 对 数 线性 模型 可 以 用 来 近似 给 定 的 数据 。 (简单 ) 线性 模型 对 数据 建 模 ， 使 之 拟 合 一 条 直线 ， 在 R 中 使 用 遂 数 Im () 即 可 实现 。 以 下 介绍 一 个 简单 线性 模型 的 例子 ， 对 对 数 线性 模型 只 
做 简单 介绍 。 


把 点 对 (2, 5), (3, 7), (4,9), (5,12), (6,11), (7, 15), (8, 18), (9, 19), (11, 22), (12, 25), (13, 24), (15, 30), (17, 35) 规约 成 线性 函数 
y=wx+b。 即 拟 合 函 数 y=2x+1.3 线 上 对 应 的 点 可 以 近似 看 作 已 知 点 ， 如 图 4-12 所 示 。 


0 2 + 6 8 10 12 14 16 18 20 


94-12 ”将 已 知 点 规约 成 线性 函数 y=wx+b 


其 中 ，y 的 方差 是 常量 13.44。 在 数据 挖掘 中 ，x 和 y 是 数值 属性 。 系 数 2 和 1.3 ( 称 作 回 归 系 数 ) 分 别 为 直线 的 斜率 和 y 轴 截 距 。 系 数 可 以 用 最 小 二 乘 方法 求解 ， 它 使 数据 的 实际 直线 与 估计 直线 之 间 的 误差 
最 小 化 。 多 元 线性 回归 是 (简单 ) 线性 回归 的 扩充 ， 人 允许 响应 变量 y 建 模 为 两 个 或 多 个 预测 变量 的 线性 函数 。 


对 数 线性 模型 : 用 来 描述 期 望 频数 与 协 变量 ( 指 与 因 变 量 有 线性 相关 并 在 探讨 自 变量 与 因 变 量 关 系 时 通过 统计 技术 加 以 控制 的 变量 ) 之 间 的 关系 。 考 虑 期 望 频数 m 取 值 在 0 到 正 无 穷 之 间 ， 故 需要 进行 对 
数 变换 为 f (m) =Inm， 使 它 的 取 值 在 -co 与 +co 之 间 。 


对 数 线性 模型 : 

inm = ñ, + Bx, + + Вх, (4-19) 
0 ‚1 k 

对 数 线性 模型 一 般 用 来 近似 离散 的 多 维 概 率 分 布 。 在 一 个 n 元 组 的 集合 中 ， 每 个 元 组 可 以 看 作 是 n 维 空间 中 的 一 个 点 。 可 以 使 用 对 数 线 性 模型 基于 维 组 合 的 一 个 较 小 子 集 ， 估 计 离 散 化 的 属性 集 的 多 维 空 


间 中 每 个 点 的 概率 ， 这 使 得 高 维 数据 空间 可 以 由 较 低 维 空间 构造 。 因 此 ， 对 数 线性 模型 也 可 以 用 于 维 规约 (由 于 低 维 空间 的 点 通常 比 原来 的 数据 点 占据 较 少 的 空间 ) 和 数据 光滑 (因为 与 较 高 维 空间 的 估计 
相 比 ， 较 低 维 空间 的 聚集 估计 较 少 受 抽样 方差 的 影响 ) 。 


[1] 康 芹 .数据 挖掘 与 数学 建 模 [М] .北京 : 国防 工业 出 版 社 ，2010: 49-50. 


45 ”Ri 语言 主要 数据 了 预 处 理沙 数 


表 4-7 给 出 了 本 节 要 介绍 的 R 中 的 插值 、 数 据 归 一 化 、 主 成 分 分 析 等 与 数据 预 处 理 相 关 的 函数 。 本 小 节 对 它们 进行 一 一 介绍 ， 实 例 分 析 中 R 运 行 结果 已 特别 标 出 。 


表 4-7 R 主 要 数据 预 处 理 了 区 数 


а 数 名 FRAME 
Im() 利用 因 变 量 与 自 变 量 建立 线性 回归 模型 jl Н] pa 29 tu 
predict () 依据 已 有 模型 对 进行 预测 通用 函数 包 
пісе() ХР ЕНУ Н 45 mice ра tu 
which() 返回 服从 条 件 的 观测 所 在 位 置 ЖИ] РЕ 2060 
scale( ) 对 数据 进行 零 -均值 规范 化 通用 函数 包 
rnorm() 随机 产生 服从 正 态 分 布 的 一 列 数 通用 函数 包 
ceiling() 回 上 舍 人 接近 的 整数 通用 国 数 包 
kmeans() 对 数据 进行 快速 聚 类 分 本 授 用 函数 包 
dwt() 对 数据 进行 小 波 分 解 waveslim 国 数 包 
princomp( ) 对 指标 变量 矩阵 进行 主 成 分 分 析 Л ГЇ] РЕ СЕР, 

(1) Im 0) 

28: 利用 因 变 量 与 自 变量 建立 线性 回归 模型 。 


.使 用 格式 : 


m=lm (уст х1+х2+---, data) 


x2.…. 都 是 数据 集 data 中 的 变量 ，y 为 因 变 量 ， 其 他 为 自 变量 ， 用 此 消 数 可 以 研究 因 变量 与 一 个 或 多 个 自 变量 之 间 的 线性 关系 。 


变量 y、x1、 


实例 : 模拟 一 个 线性 回归 问题 。 
x=1: 100# 自 变量 模拟 
y=12+3*x+rnorm (100, 0, 9) # 因 变量 模拟 ， 自 变量 的 函数 加 上 扰动 项 
data=data. frame (х, у) # 形 成 数据 框 
model1=1m (y~x, data) # 建 立 回归 模型 
summary (model) # 输 出 回归 结果 
Call: 
lm (formula = у ~ x, data = data) 
Residuals: MinlQMedian3Q0 Мах 


-20.655-5.877-1.541 5.89331.453 

Coefficients: EstimateStd.Error і value Pr (>|t|) (Intercept) 11.71868 2.011745.8257.26е-08 *** 
x2.988830.0345986.419< 2e-16 *** 

SOT Codes: 0 "х" 0.001 ST DOL та 0.05 t Ql ' .71 

Residual standard error: 9.983 on 98 degrees of freedom 

Multiple R-squared: 0.987, Adjusted R-squared: 0.9869 

F-statistic: 7468 on 1 апа 98 DF, p-value: < 2.2е-16 


(2) predict () 
` 功能 : 依据 已 有 模型 对 数据 进行 预测 。 
` 使 用 格式 : 


predict (model, newdata) 


mode| 为 已 建立 的 模型 ，newdata 为 结构 与 建 模 所 用 数据 相同 的 数据 集 ， 使 用 该 函数 可 以 对 数据 集中 因 变 量 的 值 进行 预测 。 


实例 : 模型 预测 ， 承 接线 性 回归 函数 lm О 中 的 线性 回归 模型 。 


x=rnorm (4, 1, 7) ; у=гер (0, 4) ; datal=data.frame (x, у) # 变 量 模拟 
predict (model, datal) 12 3 4 40.427189 -10.932363 8.869169 40.837081 


(3) which () 
' 功能 : 返回 服从 条 件 的 观测 所 在 位 置 ( 行 数 ) 。 

* 使 用 格式 : 

which (约束 条 件 ) 

调 出 数据 中 满足 约束 条 件 的 观测 ， 输 出 这 些 观测 所 在 的 位 置 ( 行 数 ) 。 
(4) scale () 

' 功能 : 对 数据 进行 零 一 均值 规范 化 。 
:使 用 格式 : 


Z=scale (X, center=TRUE, scale=TRUE) 


对 样本 矩阵 X 或 者 向 量 X 进 行 标准 差 标准 化 ， 返 回 标准 化 后 的 结果 到 Z 和 矩阵 中 ; 参数 center 控 制 是 否 需要 中 心 化 ， 即 控制 Z 的 均值 是 否 为 0， 参 数 scale 控 制 是 否 需要 标准 化 ， 即 控制 Z 的 方差 是 否 为 1。 


(5) rnorm () 
功能 : 


随机 产生 服从 正 态 分 布 的 一 列 数 。 


' 使 用 格式 : 


X=rnorm (n, и, o°) 


生成 一 个 n 维 向 量 ， 其 元 素 均 服从 正 态 分 布 N (u, 02). 

(6) ceiling () 

` 功能: 向 上 舍 入 接近 的 整数 。 

` 使 用 格式 : 

Z=ceiling (Х) 

输入 样本 数据 X， 向 上 舍 入 取 接 近 X 的 整数 ， 若 X 是 一 个 实数 ， 则 ceiling (X) 满足 X+ 1<ceiling (X) <X。 
实例 : 将 一 个 4 维 行 向 量 向 上 会 入 取 整 。 


X=rnorm (4, 3, 7) # 随 机 产生 一 个 维 向 量 


х [1] -4.5261748 -0.41007934.0264250 -6.1538063 
z=ceiling (X) 
z [1] -405 -6 


(7) kmeans () 

功能 : 对 数据 进行 快速 聚 类 分 析 。 

* 使 用 格式 : 

Z=kmeans (X, m) 

对 样本 矩阵 X 进 行 聚 类 ， 将 样本 划分 为 类 ， 使 得 类 间 的 差异 大 而 类 内 差异 小 。 
' 实例 : 将 一 个 10X2 的 样本 和 矩阵 划分 为 三 类 。 


vl=rnorm (10) # 产 生 10 个 服从 N (0, 1) 的 随机 数 

v2=rnorm (10) 

X=cbind (vl, v2) # 合 并 成 样本 矩阵 X 
result=kmeans (X, 3) 

result$cluster [1] 2332112213 


(8) dwt 0 

功能 : 对 数据 进行 小 波 分 解 。 

* 使 用 格式 : 
Z=dwt (X, n.levels=m) 
对 数据 X 按 频率 高 低 进 行 分 解 ， 分 解 成 m 个 部 分 ， 并 计算 每 个 频段 的 尺度 系数 和 小 波 系数 。 
(9) princomp () 

功能 : 对 指标 变量 矩阵 进行 主 成 分 分 析 。 

* 使 用 格式 : 


Z=princomp (X, cor=TRUE) 


X 为 要 进行 主 成 分 分 析 的 数据 和 矩阵 ，X 一 列 的 值 代表 一 个 变量 指标 的 一 列 观测 值 ， 参数 cor 表 示 进 行 主 成 分 分 析 之 前 是 否 需要 将 原 数 据 零 -均值 规范 化 ， 避 免 不 同 量 纲 的 影响 。 


实例 : 使 用 princomp 芯 数 对 一 个 10X4 维 的 随机 和 矩阵 进行 主 成 分 分 析 。 


V=runif (40) # 产 生 40 个 服从 均匀 分 布 U (0, 1) 的 随机 数 


X=matrix (V, nrow = 10) #P ТОХА ЕЕ, #— 7] Z) Мв 

Z=princomp (X, cor = F) 

names (Z) # 查 看 输出 项 [1] "sdev" "loadings" "center" "scale""n.obs" [6] "scores" "call" 
summary (7) Е Ж и ñK Ж 

Importance of components: Comp.1Comp.2Comp. 3Comp. 4 

Standard deviation 0.4061200 0.3038009 0.2212870 0.1901609 

Proportion of Variance 0.4817579 0.2695866 0.1430315 0.1056240 


Cumulative Proportion 0.4817579 0.7513445 0.8943760 1.0000000 


Z$sdev # 主 成 分 变量 标准 差 (平方 结果 为 特征 根 ) 

Comp.1 Comp. 2 Comp. 3 Comp.4 

0.4061200 0.3038009 0.2212870 0.1901609 

Z$loadings # 主 成 分 载荷 矩阵 

Loadings: 

Comp.1 Comp. 2 Comp.3 Comp.4 [1, | 0.811 0.521 0.260 [2, |] 0.168 =0, 211 0.962 [3, ] 0.413 -0.231 -0.865 -0.165 [4, ] 0.413 
Comp.1 Comp.2 Comp.3 Сопр.4 

55 loadings 1.00 1.00 1.00 1.00 


Proportion Var 0.25 0.25 0.25 0.25 
Cumulative Var 0.25 0.50 0.75 1.00 


Z$scores ЕЖЕ (新 变量 数据 ) 
Сотр.1 Comp. 2 Comp. 3 Comp. 4 

[1, ] -0.41511019 0.11399863 -0.27286532 0.182951188 

[2, | 0.36048875 0.31224685 -0.30373776 0.306183971 

[3, 1 0.33639727 -0.09352185 0.39236284 0.248208526 

[4, | 0.03473739 0.52636265 0.25979589 -0.139920617 

[5, 1 0.46338768 -0.07409374 -0.13304827 -0.263303590 

[6, 1 -0.51147372 0.01117339 -0.14386956 -0.197642770 

[7, ] 0.49950779 0.06941080 -0.04375274 -0.195682019 

[8, | -0.70659979 0.08050625 0.16917100 -0.017372622 

[9, | 0.02267391 -0.64939624 -0.08390385 - 0.002269971 [10, | -0.08400909 -0.29668675 0.15984777 0.078847904 


-0.805 


0.373 


0.207 


本 章 介绍 了 数据 预 处 理 的 四 个 主要 任务 : 数据 清洗 、 数 据 集成 、 数 据 变换 和 数据 规约 。 数 据 清洗 主要 介绍 了 对 缺失 值 和 异常 值 的 处 理 ， 延 续 了 第 3 章 的 缺失 值 和 异常 值 分 析 的 内 容 ， 本 章 所 介绍 的 处 理 缺 
失 值 的 方法 分 为 三 类 : 删除 法 、 蔡 换 法 、 揪 补 法 ， 人 处理 异常 值 的 方法 有 删除 含有 异常 值 的 记录 、 不 处 理 、 平 均值 修正 和 视 为 缺失 值 ;数据 集成 是 合并 多 个 数据 源 中 的 数据 ， 并 存放 到 一 个 数据 存储 中 的 过 
程 ， 对 该 部 分 的 介绍 从 实体 识别 和 元 余 属 性 识别 两 个 方面 进行 ; 数据 变换 介绍 了 如 何 从 不 同 的 应 用 角度 对 已 有 属性 进行 函数 变换 ;数据 规约 从 属性 (纵向 ) 规约 和 数值 (横向 ) 规约 两 个 方面 介绍 了 如 何 对 
数据 进行 规约 ， 使 挖掘 的 性 能 和 效率 得 到 很 大 的 提高 。 通 过 对 原始 数据 进行 相应 的 处 理 ， 将 为 后 续 挖 掘 建 模 提供 良好 的 数据 基础 。 


第 5 章 ”挖掘 建 模 


经 过 数据 探索 与 数据 预 处 理 ， 得 到 了 可 以 直接 建 模 的 数据 。 根 据 挖 掘 目标 和 数据 形式 可 以 建立 分 类 与 预测 、 聚 类 分 析 、 关 联 规则 、 时 序 模式 、 偏 差 检测 等 模型 ， 帮 助 企业 提取 数据 中 蕴含 的 商业 价值 ， 


зр 
ii 
s: 
? 
Е 


ПОЕ, AARMEN AIRA : 

1) 如 何 基 于 菜品 历史 销售 情况 ， 以 及 节假日 、 气 候 和 竞争 对 手 等 影响 因素 ， 对 菜品 销量 进行 趋势 预测 ? 

2) 如 何 预测 在 未 来 一 段 时 间 哪 些 顾客 会 流失 ， 哪 些 顾客 最 有 可 能 会 成 为 VIP 客户 ? 

3) 如 何 预测 一 种 新 产品 的 销售 量 ， 以 及 在 哪 种 类 型 的 客户 中 会 较 受 欢迎 ? 

除 此 之 外 ， 餐 厅 经 理 需 要 通过 数据 分 析 来 帮助 他 了 解 具 有 某 些 特征 的 顾客 的 消费 习惯 ;餐饮 企业 老板 希望 知道 下 个 月 的 销售 收入 ， 原 材料 采购 需要 投入 多 少 ， 这 些 都 是 分 类 与 预测 的 例子 。 


分 类 和 预测 是 预测 问题 的 两 种 主要 类 型 ， 分 类 主要 是 预测 分 类 标号 (离散 属性 ) ， 而 预测 主要 是 建立 连续 值 浮 数 模型 ， 预 测 给 定 自 变量 对 应 的 因 变 量 的 值 。 


5.1.1 ”实现 过 程 


分 类 是 构造 一 个 分 类 模型 ， 输 入 样本 的 属性 值 ， 输 出 对 应 的 类 别 ， 将 每 个 样本 映射 到 预先 定义 好 的 类 别 。 


分 类 模型 建立 在 已 有 类 标记 的 数据 集 上 ， 模 型 在 已 有 样本 上 的 准确 率 可 以 方便 地 计算 ， 所 以 分 类 属于 有 监督 的 学 习 。 图 5-1 是 一 个 将 销售 量 分 为 “高 、 中 、 低 ”三 分 类 问题 。 


© 十 
图 5-1 分 类 问题 
(2) 预测 
预测 是 建立 两 种 或 两 种 以 上 变量 间 相 互 依赖 的 函数 模型 ， 然 后 进行 预测 或 控制 。 
(3) 实现 过 程 


分 类 和 预测 的 实现 过 程 类 似 ， 以 分 类 模型 为 例 ， 实 现 过 程 如 图 5-2 所 示 。 


输出 属性 : 类 标号 4 
已 知 有 7 个 
训练 样本 


得 到 训练 规则 


| 输入 属性 : А, А, ... А | 输入 属性 : А, А, ... А 
тшш: RGS __ | 物 出 属性 : RGS | 
已 知 有 个 | 属性 类 标号 未 知 的 符 


检测 样本 分 类 样本 


图 5-2 分 类 模型 的 实现 步骤 


分 类 算法 分 为 以 下 两 步 : 第 一 步 是 学 习 步 ， 通 过 归纳 分 析 训 练 样本 集 来 建立 分 类 模型 得 到 分 类 规则 ; 第 二 步 是 分 类 步 ， 先 用 已 知 的 测试 样本 集 评估 分 类 规则 的 准确 率 ， 如 果 准 确 率 是 可 以 接受 的 ， 则 使 
用 该 模型 对 未 知 类 标号 的 待 测 样本 集 进行 预测 。 


预测 模型 的 实现 也 有 两 步 ， 类 似 于 图 5-2 描 述 的 分 类 模型 ， 第 一 步 是 通过 训 | 练 集 建立 预测 属性 (数值 型 的 ) 的 函数 模型 ， 第 二 步 在 模型 通过 检验 后 进行 预测 或 控制 。 


5.1.2 ”常用 的 分 类 与 预测 算法 


常用 的 分 类 与 预测 算法 如 表 5-1 所 示 。 


表 5-1 主要 分 类 与 预测 算法 简介 


算法 名 称 


回归 分 析 


决策 树 


人 工 神 经 网 络 


5.1.3 回归 分 析 


算法 描述 
回归 分 析 是 确定 预测 属性 (数值 型 ) 与 其 他 变量 间 相 互 依赖 的 定量 关系 最 常用 的 统计 和 学 方法 。 
包括 线性 回归 、 非 线性 回归 、Logistic 回归 、 崔 回归、 主 成 分 回归 、 偶 最 小 二 乘 回 归 等 模型 


决 宋 树 采 用 目 顶 回 下 的 递归 方式 ， 在 内 部 二 点 进行 属性 信 的 比较 ， 并 根据 不 同 的 属性 值 从 该 节 
кА) ГЛ ж, ЖРВИ дЕ 27 27 BJ28 

人 工 神 经 网 络 是 一 种 模仿 大 脑 神经 网 络 结构 和 功能 而 建立 的 信息 处 理 系统 ， 表 示 神 经 网 络 的 输 
入 与 输出 变量 之 间 关 系 的 模型 


册 叶 斯 网 络 又 称 信 和 度 网 络 ， 是 Bayes 方法 的 扩展 ， 是 目前 不 确定 知识 表达 和 推理 领域 最 有 效 的 
理论 模型 之 一 

交 持 问 量 机 是 一 种 通过 某 种 非 线 性 上 映射， 把 低 维 的 非 线 性 可 分 转化 为 电 维 的 线性 可 分 ， 在 局 维 
空间 进行 线性 分 析 的 算法 


回归 分 析 趾 是 通过 建立 模型 来 研究 变量 之 间 相 互 关系 的 密切 程度 、 结 构 状态 及 进行 模型 预测 的 一 种 有 效 工具 ， 在 工商 管理 、 经 济 、 社 会 、 医 学 和 生物 学 等 领域 应 用 十 分 广泛 。 从 19 世 纪 初 高 斯 提出 最 小 
二 乘 估 计算 起 ， 回 归 分 析 的 历史 已 有 200 多 年 。 从 经 典 的 回归 分 析 方 法 到 近代 的 回归 分 析 方 法 ， 按 照 研究 方法 划分 ， 回 归 分 析 研 究 的 范围 大 致 如 下 : 


回归 分 析 


线性 回归 ;多 元 线性 回归 
多 个 因 变 量 与 多 个 目 变 量 的 回归 
如 何 从 数据 推 新 回归 模型 基本 假设 的 合理 性 
"ТҮ. 基本 假设 不 成 立时 如 何 对 数据 进行 修正 
判断 回归 方程 拟 合 的 效果 
ЖЕ EH РЕЖЕ JJ zÇ 
ТИЕ HJ ЕЁ 
逐步 回归 分 析 法 
偶 最 小 二 滋 回 归 
参数 估计 方法 改进 1 岭 回归 
主 成 分 回归 
一 元 非 线 性 回归 
非 线 性 回归 4 分 段 回归 
多 元 非 线 性 回归 
日 变量 含有 定性 变量 的 情况 
因 杰 量 合 有 是 性 变量 的 情况 


回归 变量 选择 | 


含有 定性 变量 的 回归 


概率 


在 数据 挖掘 环境 下 ， 自 变量 与 因 变 量具 有 相关 关系 ， 自 变量 的 值 是 已 知 的， 因 变 量 是 要 预测 的 。 
常用 的 回归 模型 如 表 5-2 所 示 。 


表 5-2 主要 回归 模型 分 类 


回归 模型 名 称 适用 条 件 算法 描述 


АЙНЫЙ 因 变 量 与 自 变量 是 线性 | ”对 一 个 或 多 个 自 变量 和 因 变量 之 间 的 线性 关系 进行 建 模 ， 可 用 最 小 
ш 二 乘法 求解 模型 系数 

对 一 个 或 多 个 自 变量 和 因 变量 之 间 的 非 线性 关系 进行 建 模 。 如 果 非 
非 线性 回归 线性 关系 可 以 通过 简单 的 函数 变换 转化 成 线性 关系 ， 用 线性 回归 的 思 


МОКЕ; 如 果 不 能 转化 ， 用 非 线性 最 小 二 乘 方法 求解 


挟 厂 义 线性 回归 神 型 的 特例 ， 利 用 Logistic 函数 将 因 变 量 的 取 值 范 


围 控制 在 0 和 1 之 间 ， 表 示 取 值 为 1 的 概率 


可 建 模 的 日 变量 之 间 


10 [u] IH . 是 一 种 改进 最 小 二 乘 估 计 的 方法 
参与 建 模 的 自 恋 量 主 成 分 回归 是 根据 主 成 分 分 析 的 思想 提出 来 的 ， ЕЛ А-В 
主 成 分 回归 Кк серени Ж, ИКЕГЕЗ. TER Нл Z [Н] [Г] Z 


重 共 线性 


线性 回归 模型 是 相对 简单 的 回归 模型 ， 但 是 通常 因 变 量 和 自 变 量 之 间 呈 现 某 种 曲线 关系 ， 就 需要 建立 非 线 性 回归 模型 。 


Logistic 回 归属 于 概率 型 非 线 性 回归 ， 分 为 二 分 类 和 多 分 类 的 回归 模型 。 对 于 二 分 类 的 Logistic 回 归 ， 因 变量 y 只 有 “是 、 否 ”两 个 取 值 ， 记 为 1 和 0。 假 设 在 自 变量 x1，x2，…，xp 作 用 下 ，y 取 “是 ” 的 
是 Pp， 则 取 “ 否 ”的 概率 是 1-p， 研 究 的 是 当 y 取 “是 ”发 生 的 概率 p 与 自 变量 x1，x2，…，Xxp 的 关系 。 


当 自 变量 之 间 出 现 多 重 共 线性 时 ， 用 最 小 二 乘 估计 估计 的 回归 系数 将 会 不 准确 ， 消 除 多 重 共 线 性 的 参数 改进 的 估计 方法 主要 有 岭 回归 和 主 成 分 回归 。 
下 面 就 较 常 用 的 二 分 类 Logistic 回 归 模 型 的 原理 展开 介绍 。 

1.Logistic 回 归 分 析 介 绍 

(1) Logistic 函 数 


Logistic 回 归 模 型 中 的 因 变量 的 只 有 1-0 (如 是 和 否 、 发 生 和 不 发 生 ) 两 种 取 值 。 假 设 在 p 个 独立 自 变量 x1，x2，…，xp 作 用 下 ， 记 y 取 1 的 概率 是 p=P (y=1|X) ， 取 0 概率 是 1-p， 取 1 和 取 0 的 概率 之 比 为 


1-p， 称 为 事件 的 优势 比 (odds) ， 对 odds 取 自然 对 数 即 得 Logistic 变 换 Logit (p) = “U -rh 


Ë l 
令 Logit (p) (iez, 则 1+e= 即 为 Logistic 函 数 ， 如 图 5-3 所 示 。 
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图 5-3 Logistic% žk 
当 p 在 (O, 1) 之 间 变 化 时 ，odds 的 取 值 范围 是 (0，+co) ， 则 "人 ij 的 取 值 范围 是 (-co，+o0) 。 
(2) Logistic 回 归 模 型 


=> 
1 


Logisti јаваат "г урааа 


Logistic 回 归 模 型 为 : 


T 可 = B + Bx, + + Вх + е (5-1) 


因为 "1 的 取 值 范围 是 (Co, +оо) ， 这 样 ， 自 变量 x1，x2，..，xb 可 在 任意 范围 内 取 值 。 


记 g (x) =Bo+B1x1+…+Bpxp， 得 到 : 


p= Р(бузч=1|ДУ = — (5-2) 


g( х) 


lo p= Püy = 0: | XY) = 1 6с == Oa (5-3) 
(3) Logistic 回 归 模 型 解释 


Р __ _ „Вовна, (5-4) 
l +p 


Во: 在 没有 自 变量 ， 即 x1，x2，.…，xp 全 部 取 0，y=1 与 y= 0 发 生 概率 之 比 的 自然 对 数 ; 


Bi: 某 自 变量 x 变 化 时 ， 即 xi= 1 与 Xi=0 相 比 ，y=1 优 势 比 的 对 数值 。 
2.Logistic 回 归 建 模 步骤 


Logistic 回 归 模型 的 建 模 步骤 如 图 5-4 所 示 。 


ЕЕРЕЕ BJ ЕНЕЛЕР А 


J, Ху, А5, Ea F Ap 


SIRRA 
15) ohx GEE 


估计 回归 系数 


应 用 方 关 分 析 表 对 模型 检验 


归 系 数 检验 t 检 验 


程 


- 


应 用 参数 信 计 未 对 回归 系数 
进行 检验 


图 5-4 Logistic Œ Ја 22 Ж] hg 19 2 BE 


1) 根据 分 析 目 的 设置 指标 变量 ( 因 变 量 和 自 变量 ) ， 然 后 收集 数据 。 


2) y 取 1 的 概率 是 p=P (y=1|X) ， 取 0 概率 是 1-p。 用 "人 和 自 变量 列 出 线性 回归 方程 估计 出 模型 中 的 回归 系数 。 


3) 进行 模型 检验 : 根据 输出 的 方差 分 析 表 中 的 F 值 和 p 值 来 检验 该 回归 方程 是 否 显著 ， 如 果 p 值 小 于 显著 性 水 平 c 则 模型 通过 检验 ， 可 以 进行 下 一 步 回归 系数 的 检验 ; 否则 要 重新 选择 指标 变量 ， 重 新 建 
回归 方程 。 


4) 进行 回归 系数 的 显著 性 检验 : 在 多 元 线性 回归 中 ， 回 归 方程 显著 并 不 意味 着 每 个 自 变量 对 y 的 影响 都 显著 ， 为 了 从 回归 方程 中 剔除 那些 次 要 的 、 可 有 可 无 的 变量 ， 重 新 建立 更 为 简单 有 效 的 回归 方 
需要 对 每 个 自 变量 进行 显著 性 检验 ， 检 验 结果 由 参数 估计 表 得 到 。 采 用 逐步 回归 法 ， 首 先 剔 除 掉 最 不 显著 的 因 变 量 ， 重 新 构造 回归 方程 ， 一 直到 模型 和 参与 的 回归 系数 都 通过 检验 。 


5) 模型 应 用 : 输入 自 变量 的 取 值 ， 就 可 以 得 到 预测 变量 的 值 ， 或 者 根据 预测 变量 的 值 去 控制 自 变量 的 取 值 。 
下 面 对 某 银行 在 降低 贷款 拖欠 率 的 数据 进行 Logistic 回 归 建 模 ， 该 数据 示例 如 表 5-3 所 示 。 


表 5-3 银行 贷款 拖欠 率 数 据 


n | o | o | 30 | 93 | e | w 
o | 1 [з | w | so] ss | ow | 2m 
a | 1 | | po | 29% | 2% | on 


* 数 据 详 见 : 示例 程序 /data/bankloan.csv 


с | © |е 


利用 Ri 语言 对 这 个 数据 进行 Logistic 回 归 分 析 ， 分 别 采 用 逐步 寻 优 (逐步 剔除 掉 最 不 显著 的 因 变 量 ) 和 使 用 R 语 言 自 带 的 逐步 向 前 、 向 后 回归 函数 进行 建 模 ， 其 代码 如 代码 清单 5-1 所 示 。 
代码 清单 5-1 _ Logistic 回归 代码 


НЫ т = 
# 把 “数据 及 程序 ”文件 夹 复制 到 F 盘 下 ， 再 用 setwd 设 置 工作 空间 


setwd ("F: /数据 及 程序 /chapter5/ 示 例 程序 ") 

# 读 入 数据 

Data=read.csv ("./data/bankloan.csv") [2: 701, ] 

# 数 据 命名 

colnames (Data) <-с \ "к", "х2". "хз". "х4", "жы". "хб", "х7", "х8", uy") 
#1logistic 回 归 模 型 


glm=glm (ухх1+х2+х3+х4+х5+х6+х7+х8, family=binomial (link=logit) , data=Data) 

summary (glm) 

ЯРЧЕ 2 T E 

logit.step<-step (glm, direction="both") 

summary (logit.step) 

ННН т) ig E zÉ 
i 
m 


t.step<-step (glm, direction="forward") 
ary (logit.step) 
HPE 6] 6 Ж 
it.step<-step (glm, direction="backward") 
summary (logit.step) 


* 代 码 详 见 : 示例 程序 /code/logistic_regression.R 


运行 代码 清单 5-1 可 以 得 到 部 分 输出 结果 如 下 : 


> logit.step<-step (glm, direction="both") # 逐 步 利 选 法 变量 选择 
Start: AIC=569 
y~x1+x2+x3+x4+x5+x6+x7+x8Df DevianceAIC 
=x2 І 551.54 567.54 


-x8 1 9551.79 567.79 


-x5 1 552.25 568.25 
<none> 551.00 569.00 

—x1 1 554.95 570.95 
-x6 1 555.93 571593 
-х4 1 573.03 589.03 
-x7 1 594.37 610.37 
=x3 635.21 651.21 


Step: AIC=567.54 
y~x1+x3+x4+x5+x6+x7+x8Df DevianceAIC 


-x8 1 552.51 566.51 
=x5 552.52 56652 
<попе> 551.54 567.54 

+x2 1 551.00 569.00 
—x1 1 555.34 569.34 
-x6 1 556.17 570.17 
-x4 1 573.19 587.19 
-x7 1 594.65 608.65 


І 650.94 664.94 
Step: АІС=566.51 
y~x1+x3+x4+x5+x6+x7Df DevianceAIC 


=х5 1 552.70 564.70 
<попе> 552.51 56651 

+x8 1 551.54 567.54 

+х2 1 551.79 567.79 
-x1 1 556.27 568.27 
-x6 1 571.73 583.73 
-х4 1 573.86 585.86 
-x7 1 594.84 606.84 
=X3 651.47 663.47 


Step: AIC=564.7 
ух^х1+х3+х4+х6+х7рёЕ DevianceAIC 


<none> 552.70 564.70 
-х1 1 556.29 566.29 
+x2 1 552.30 566.30 
+x5 1 552.51 566.51 
+х8 1 552.52 566.52 
-х4 1 574.45 584.45 
-x6 1 576.92 586.92 
-x7 1 612.58 622.58 
-x3 1 660.08 670.08 


М.Е оин, KAZES, 251910 7х2. х8, х5, RAHEIRELO SAREE, х3, x4 х6, хт, FHRBEJUBUJAICIBEE564.70, вима. KARES APAIA PV 
EAEE = a an EEE ERENER R 


这 里 需要 注意 ，R 语 言 自 带 的 函数 模型 变量 寻 优 设 置 不 同 的 参数 可 以 采用 不 同 的 方式 进行 ， 如 代码 清单 5-1 展 示 的 就 是 添加 变量 和 剔除 变量 两 种 方式 。 同 时 ， 这 两 个 的 结果 不 同 ， 前 向 选择 法 只 考虑 引入 
变量 而 不 考虑 删除 ， 而 后 向 选择 法 逐步 删除 对 y 影 响 不 显著 的 变量 ， 以 使 最 后 回归 方程 只 保留 重要 的 变量 。 
5.14 决策 树 

决策 树 方 法 在 分 类 、 预 测 、 规 则 提取 等 领域 有 着 广泛 应 用 。20 世 纪 70 年 代 后 期 和 80 年 代 初期 ， 机 器 学 习 研 究 者 上 Ross Quinlan 提 出 了 ID3[P 算 法 以 后 ， 决 策 树 在 机 器 学 习 、 数 据 挖掘 领域 得 到 了 极 大 的 
发 展 。Quinlan 后 来 又 提出 了 C4.5， 成 为 新 的 监督 学 习 算 法 。1984 年 ， 几 位 统计 学 家 提出 了 CART 分 类 算法 。ID3 和 CART 算 法 大 约 同 时 被 提出 ， 但 都 是 采用 类 似 的 方法 从 训练 样本 中 学 习 决 策 树 。 


决策 树 是 一 树 状 结构 ， 它 的 每 一 个 叶 节 点 对 应 着 一 个 分 类 ， 非 叶 节 点 对 应 着 在 某 个 属性 上 的 划分 ， 根 据 样本 在 该 属性 上 的 不 同 取 值 将 其 划分 成 若干 个 子 集 。 对 于 非 纯 的 叶 节 点 ， 多 数 类 的 标号 给 出 到 达 
这 个 节点 的 样本 所 属 的 类 。 构 造 决策 树 的 核心 问题 是 在 每 一 步 如 何 选择 适当 的 属性 对 样本 做 拆 分 。 对 一 个 分 类 问题 ， 从 已 知 类 标记 的 训练 样本 中 学 习 并 构造 出 决策 树 是 一 个 自 上 而 下 、 分 而 治之 的 过 程 。 


常用 的 决策 树 算法 如 表 5-4 所 示 。 
表 5-4 决策 树 站 法 分 类 

决策 树 算法 算法 描述 

其 核心 是 在 决策 树 的 各 级 节点 上 ， 使 用 信息 增益 方法 作为 属性 的 选择 标准 ， 来 帮助 确定 生成 每 
个 世 点 时 所 应 采用 的 合适 属性 
C4.5 决策 树 生 成 算法 相对 于 ID3 算法 的 重要 改进 是 使 用 信息 增益 率 来 选择 斑点 属性 。C4. 5 算法 
СА. 5 算法 可 以 克服 ID3 算法 存在 的 不 足 : ID3 算法 只 适用 于 离散 的 描述 属性 ， 而 СА. 5 算法 既 能 够 处 理 离 散 

的 描述 属性 ， 也 可 以 处理 连 续 的 描述 属性 


CART 决策 树 是 一 种 十 分 有 效 的 非 参数 分 类 和 回归 方法 ， 通 过 构建 树 、 修 剪 树 、 评 估 树 来 构建 一 
个 二 义 树 。 当 终 节 后 是 连续 变量 时 ， 该 树 为 回归 树 ; 当 终 市 点 是 分 类 变量 时 ， 该 树 为 分 类 树 


== Fa 


ID3 算法 


CART 算法 


本 节 将 详细 介绍 ID3 算 法 ， 也 是 最 经 典 的 决策 树 分 类 算法 。 
1.1D3 算 法 简介 及 基本 原理 


1D3 算 法 基于 信息 粹 来 选择 最 佳 测 试 属性 。 它 选择 当前 样本 集中 具有 最 大 信息 增益 值 的 属性 作为 测试 属性 ; 样本 集 的 划分 则 依据 测试 属性 的 取 值 进行 ， 测 试 属性 有 多 少 不 同 的 取 值 就 将 样本 集 划 分 为 多 少 
子 样本 集 ， 同 时 决策 树 上 对 应 于 该 样本 集 的 节点 长 出 新 的 叶子 节点 。1D3 算 法 根据 信息 论 理论 ， 采 用 划分 后 样本 集 的 不 确定 性 作为 衡量 划分 好 坏 的 标准 ， 用 信息 增益 值 度量 不 确定 性 : 信息 增益 值 越 大 ， 不 确 
定性 越 小 。 因 此 ，1D3 算 法 在 每 个 非 叶 节 点 选择 信息 增益 最 大 的 属性 作为 测试 属性 ， 这 样 可 以 得 到 当前 情况 下 最 纯 的 拆 分 ， 从 而 得 到 较 小 的 决策 树 。 


设 S 是 s 个 数据 样本 的 集合 。 假 定 类 别 属性 具有 m 个 不 同 的 值 : Ci (i=1，2，.…，m) 。 设 s 是 类 Ci 中 的 样本 数 。 对 一 个 给 定 的 样本 ， 它 总 的 信息 炳 为 : 


ОЗИ ти = >, Plog, (Р,) (5-5 ) 


式 中 ，P; 为 任意 样本 属于 C 的 概率 ， 一 般 可 以 用 si/s 估 计 。 


设 一 个 属性 A 具有 k 个 不 同 的 值 {a1，a2，.…，ak}， 利 用 属性 A 将 集合 Ss 划分 为 k 个 子 集 {Ss1，S2，.…，SK， 其 中 Sj 包含 了 集合 中 属性 A 取 a 值 的 样本 。 若 选择 属性 A 为 测试 属性 ， 则 这 些 子 集 就 是 从 集合 S 的 
节 损 生长 出 来 的 新 的 叶 节 点 。 设 sj 是 子 集 9j 中 类 别 为 C 的 样本 数 ， 则 根据 属性 A 划 分 样本 的 信息 炳 值 为 : 


Е(А) = Y "(з узш, Sn) (5-6) 


$ 


ij 


式 中 ， (3,39. РС: 98 и Pijj= 7 + 52) + ы “是 子 集 S 中 类 别 为 C 的 样本 的 概率 。 


最 后 ， 用 属性 A 划分 样本 集 S 后 所 得 的 信息 增益 (Gain) 为 : 


" 本 н g i 了 j 
ғ) " атты в . тз = х > + | d — ) 
Сай А) = Cs s. ses s 3) = ECA) (5-7 
显然 E (A) H), Gain (А) 的 值 越 大 ， 说 明 选 择 测试 属性 A 对 于 分 类 提供 的 信息 越 大 ， 选 择 A 之 后 对 分 类 的 不 确定 程度 越 小 。 属 性 A 的 Kk 个 不 同 的 值 对 应 样本 集 S 的 K 个 子 集 或 分 支 ， 通 过 递归 调用 上 述 
过 程 (不 包括 已 经 选择 的 属性 ) ， 生 成 其 他 属性 作为 节点 的 子 节点 和 分 支 来 生成 整个 决策 树 。1D3 决 策 树 算法 作为 一 个 典型 的 决策 树 学 习 算法 ， 其 核心 是 在 决策 树 的 各 级 节点 上 都 用 信息 增益 作为 判断 标准 进 
行 属性 的 选择 ， 使 得 在 每 个 非 叶 节点 上 进行 测试 时 ， 都 能 获得 最 大 的 类 别 分 类 增益 ， 使 分 类 后 数据 集 的 最 小 。 这 样 的 处 理 方法 使 得 树 的 平均 深度 较 小 ， 从 而 有 效 地 提高 了 分 类 效率 。 


2.1D3 算 法 具体 流程 

1D3 算 法 的 具体 详细 实现 步骤 如 下 : 

1) 对 当前 样本 集合 ， 计 算 所 有 属性 的 信息 增益 ; 

2) 选择 信息 增益 最 大 的 属性 作为 测试 属性 ， 把 测试 属性 取 值 相同 的 样本 划 为 同一 个 子 样本 集 ; 

3) 若 子 样本 集 的 类 别 属性 只 含有 单个 属性 ， 则 分 支 为 叶子 节点 ， 判 断 其 属性 值 并 标 上 相应 的 符号 ， 然 后 返回 调用 处 ; 否则 对 子 样本 集 递归 调用 本 算法 。 


下 面 将 结合 餐饮 案例 实现 ID3 的 具体 实施 步骤 。T 和 餐饮 企业 作为 大 型 连锁 企业 ， 生 产 的 产品 种 类 比较 多 ， 另 外 涉及 分 店 所 处 的 位 置 也 不 同 ， 数 目 比 较 多 。 对 于 企业 的 高 层 来 讲 ， 了 解 周末 和 非 周末 销量 是 
否 有 大 的 区 别 ， 以 及 天 气 、 促 销 这 些 因素 是 否 能 够 影响 门店 的 销量 这 些 信息 至 关 重 要 。 因 此 ， 为 了 让 决策 者 准确 了 解 和 销量 有 关 的 一 系列 影响 因素 ， 需 要 构建 模型 来 分 析 天 气 、 是 否 周末 和 是 否 有 促销 对 销 
量 的 影响 ， 下 面 以 单个 门店 进行 分 析 。 


对 于 天 和 气 属 性 ， 数 据 源 中 存在 多 种 不 同 的 值 ， 这 里 将 那些 属性 值 相近 的 值 进行 类 别 整合 。 例 如 ， 天 气 为 “多 云 ”、 “多 云 转 晴 ”、“ 畏 ”这 些 属 性 值 相 近 ， 均 是 适宜 外 出 的 天 气 ， 不 会 对 产品 销量 有 太 
大 的 影响 ， 因 此 将 它们 划 为 一 类 ， 天 气 属性 值 设置 为 “好 ”; 同 理 ， 对 于 “ 雨 ”、“ 小 到 中 雨 ” 等 天 气 ， 均 是 不 适宜 外 出 的 天 气 ， 因 此 将 它们 划 为 一 类 ， 天 气 属 性 值 设 置 为 “ 坏 ”。 


对 于 是 否 周末 属性 ， 周 末 设 置 为 “是 ”， 非 周末 则 设置 为 “ 否 ”。 

对 于 是 否 有 促销 属性 ， 有 促销 设置 为 “是 ”， 无 促销 则 设置 “人 否 ”。 

产品 的 销售 数量 为 数值 型 ， 需 要 对 属性 进行 离散 化 ， 将 销售 数据 划分 为 “高 ”和 “ 低 ” 两 类 。 将 其 平均 值 作 为 分 界 点 ， 大 于 平均 值 的 划分 到 “高 ”类 别 ， 小 于 平均 值 的 划分 为 “ 低 ”类 别 。 
经 过 以 上 的 处 理 ， 我 们 得 到 的 数据 集合 如 表 5-5 所 示 。 


表 5-5 处理 后 的 数据 集 


序号 天 气 是 否 有 促销 销量 


p. | mw | tƏ 
st 
| | 

1 б]! 


* 数 据 详 见 : 示例 程序 /data/sales_data.csv 
采用 1D3 算 法 构建 决策 树 模 型 的 具体 步骤 如 下 : 


1) 根据 式 (5-5) ， 计 算 总 的 信息 粹 ， 其 中 数据 中 总 记录 数 为 34， 而 销售 数量 为 “高 ”的 数据 有 18，“ 低 ”的 有 16。 


[(18,16) = 一 slog, Ан — Slog, 19 = 0. 997 503 


对 于 天 和 气 属 性 ， 其 属性 值 有 “好 ”和 “ 坏 ” 两 种 。 其 中 ， 天 气 为 “好 ”的 条 件 下 ， 销 售 数量 为 “高 ”的 记录 为 11， 销 售 数量 为 “ 低 ”的 记录 为 6， 可 表示 为 (11，6) ; 天 气 为 “ 坏 ” 的 条 件 下 ， 销 售 数 
量 为 “高 ”的 记录 为 7， 销 售 数量 为 “ 低 ” 的 记录 为 10， 可 表示 为 (7，10) „ ШХА АИБА: 


[| 


I(11.6) 


17 ° 17 17 ° 17 

| 7 7 10, 10 
7,10) = – 17198 ту — 17198 17 
Е(Ж5) = Ed 11.6) 24107,10) 


= 
1! 


局 


“是 ”和 “ 否 ” 两 种 。 其 中 ， 是 否 周末 属性 为 “是 ”的 条 件 下 ， 销 售 数量 为 ， 
的 记录 为 7， 销 售 数量 为 “ 低 ” 的 记录 为 13， 可 表示 为 (7，13) 。 则 节假日 属性 的 信息 灶 计 算 过 程 如 下 : 


11 


对 于 是 否 周末 属性 ， 其 属性 值 有 
否 ”的 条 件 下 ， 销 售 数量 为 


nÈ" 
局 


5 п 
` 


3 


”的 记录 为 11， 销 售 数量 为 “ 低 ” 


0. 936 667 


0. 977418 


0. 957 043 


的 记录 为 3， 可 表示 为 (11，3) ; 是 否 周 末 属 性 


= 0. 749 595 


0. 934 068 


+ 34107, 10) = 0. 858 109 


的 记录 为 15， 销 售 数量 为 “ 低 ” 的 记录 为 7， 可 表示 为 (15，7) ; 是 否 有 促销 属 


(11:3) = 一 一 |opg 一 Е. 
` 14 14 14 
Ў. 183 = „Лар ар, 12 
20 20 20 °20 
пласе ра ды: 20 
B( 是 否 周末 ) = 3 FI 2) 79 
对 于 是 否 有 促销 属性 ， 其 属性 值 有 “是 ”和 “人 否 ” 两 种 。 其 中 ， 是 否 有 促销 属性 为 “是 ”的 条 件 下 ， 销 售 数量 为 “高 ” 
性 为 “ 否 ”的 条 件 下 ， 销 售 数量 为 “高 ”的 记录 为 3， 销 售 数量 为 “ 低 ” 的 记录 为 9， 可 表示 为 (3，9) 。 则 是 否 有 促销 属性 的 信息 灶 计 算 过 程 如 下 : 
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HIST) Zlo 


== ЕА 
12 282 


1(7 10) 3 


D 
Ka 12 082 


E( 是 否 有 促销 ) 


是 否 有 促销 属性 的 信息 增益 值 。 


22 
EL 12.7 
RISA 


3) 根据 式 (5-7) ， 计 算 天 气 、 是 否 周末 和 
Сап (ЖА) =I (18, 16) -E (х4) =0.997503-0.957043=0.04046 
Сап (是 否 周末 ) =1 (18, 16) -E (是 否 周末 ) =0.997503-0.858109=0.139394 


Сап (是 否 有 促销 ) =I (18, 16) -E (是 否 有 促销 ) =0.997503-0.870235=0.127268 


12. дах 
+ 21163,9) 


T 


‚902.3 
, 37 = 0. 902 393 


0. 611 278 
15 ). Š Š 


(). 670 235 


4) 由 3) 的 计算 结果 可 以 知道 是 


图 5-5 ID3 生 成 的 决策 树 模 型 


否 周末 属性 的 信息 增益 值 最 大 ， 它 的 两 个 属性 值 “是” 和“ 否 ”作为 该 根 节点 的 两 个 分 支 。 然 后 按照 1) 至 3) 所 示 步 又 继续 对 该 根 节点 


对 每 一 个 分 支 节点 继续 进行 信息 增益 的 计算 ， 如 此 循环 反复 ， 直 到 没有 新 的 节点 分 支 ， 最终 构 成 一 棵 决策 树 。 生 成 的 决策 树 模 型 如 图 5-5 所 示 。 


从 图 5-5 的 决策 树 模型 可 以 看 出 ， 


. 若 周 末 属 性 为 “是 ”， 天 气 为 


ЖАКАМА “R?” , ХАЯ 


. 若 周 末 属 性 为 “是 ”， 天 气 为 


门店 的 销售 高 低 和 各 个 属性 之 间 的 关系 ， 并 可 以 提取 出 以 下 决策 规则 : 
“好 ”， 则 销售 数量 为 “高 ”; 
“ 坏 ”， 是 否 有 促销 属性 为 “是 ”， 则 销售 数量 为 “高 ”; 


“ 坏 ”， 是 否 有 促销 属性 为 “ 否 ”， 则 销售 数量 为 “ 低 ”; 


` 若 周末 属性 为 “ 否 ”， 是 否 有 促销 属性 为 “ 否 ”， 则 销售 数量 为 “ 低 ”; 


` 


. 若 周 末 属 性 为 “ 否 ”， 是 否 有 促销 属性 为 “是 ”， 天 气 为 “好 ”， 则 销售 数量 为 “高 ”; 


` 


. 车 周 末 属 性 为 “ 否 ”， 是 否 有 促销 属性 为 “是 ”， 天 气 为 “ 坏 ”， 则 销售 数量 为 “ 低 ”。 


` 


由 于 1D3 决 策 树 算法 采用 了 信息 增 
属性 ， 在 分 类 前 需要 对 其 进行 离散 化 。 


的 三 个 分 支 进行 节点 的 划分 


Te ЕТ 


ЖЕЎЕ АО, ае ЕНЕ УВ Эз ЕЕ, Пса ЕА EER AARE. ШШ], ОЗА ЧАЕК ВЈ Е, УРЕ ЯНА 


为 了 解决 倾向 于 选择 高 度 分 支 属性 的 问题 ， 人 们 采用 信息 增益 率 作为 选择 测试 属性 的 标准 ， 这 样 便 得 到 C4.5 决 策 树 算法 。 此 外 ， 常 用 的 决策 树 算法 


SLIQ 算 法 、SPRINT 算 法 和 PUBLIC 算 法 等 。 


使 用 ID3 算 法 建立 决策 树 的 R 语 言 代码 如 代码 清单 -2 所 示 。 


代码 清单 5-2 决策 树 算法 预测 销量 


高 低 代 码 


还 有 CART 算 


法 、 


坦 # 设 置 工作 空间 


# 把 “数据 及 程序 ”文件 夹 复制 到 FF 总 下 ， 再 用 setwd 设 置 工作 空间 
setwd ("F: /数据 及 程序 /chapter5/ 示 例 程序 ") 


# 读 入 数据 

data=read.csv ("./data/sales data.csv") [, 2: 5] 
# 数 据 命 名 

colnames (data) <-с ("х1", "х2", "х3", "result") 


+ L 1] 0038915 820% 


calculateEntropy <- function (data) { 


t<- table (data) 

sum<- sum (t) 

t<- t [t! =0] 

entropy <- -sum (1052 (t/ 
return (entropy) 


+ 3 ж 2] 224 69 4š 8, 
calculateEntropy2 <- function 
var<- table (data [1]) 


sum) * (t/sum) ) 


(data) { 


p<- var/sum (var) 
varnames <- names (var) 
array < c () 
for (name in varnames) Í 
array < append (array, calculateEntropy (subset (data, data [1] ==name, select=2) ) ) 


) 
return (sum (array*p) ) 
) 
buildTree <- function (data) { 
if (length (unique (data$result) ) == 1) í 
cat (data$result [1] ) 
return () 


FP- — 


f (length (names (data) ) == 1) { 
cat ("http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15423/0EBPS/Text/...") 
return () 


| 

entropy <- calculateEntropy (data$result) 
labels <- names (data) 

у abe] <— "W" 

temp <- Inf 
subentropy <- с () 

for (i іп 1: (length (data) -1) ) Í 

temp2 <- calculateEntropy2 (data [c (i, length (labels) ) |) 
if (temp2 < temp) { 

temp <- temp2label <- labels [і] 


subentropy <- append (subentropy, temp2) 
) 
cat (label) 

cat (" [ 

nextLabels <- labels [labels ! = label] 

for (value in unlist (unique (data [label] ) ) ) í 
cat (value, ": ") 
buildTree (subset (data, data [label] ==value, select=nextLabels) ) 
cat ү" "") 


} 
cat ("]-") 


} 
# 构 建 分 类 树 
buildTree (data) 


* 代 码 详 见 : 示例 程序 /code/ID3_decision_ttee.R 


5.1.5 ”人 工 神 经 网 络 

ATZI] (Artificial Neural Networks, ANN) ， 是 模拟 生物 神经 网 络 进行 信息 处 理 的 一 种 数学 模型 。 它 以 对 大 脑 的 生理 研究 成 果 为 基础 ， 其 目的 在 于 模拟 大 脑 的 某 些 机 理 与 机 制 ， 实 现 一 些 
特定 的 功能 。 

1943 年 ， 美 国 心理 学 家 McCulloch 和 数学 家 Pitts 联 合 提出 了 形式 神经 元 的 数学 模型 MP 模型 ， 证 明了 单个 神经 元 能 执行 逻辑 功能 ， 开 创 了 人 工 神经 网 络 研究 的 时 代 。1957 年 ， 计 算 机 科学 家 Rosenblatt 
用 硬件 完成 了 最 早 的 神经 网 络 模型 ， 即 感知 器 ， 并 用 来 模拟 生物 的 感知 和 学 习 能 力 。1969 年 M.Minsky 等 仔细 分 析 了 以 感知 器 为 代表 的 神经 网 络 系统 的 功能 及 局 限 后 ， 出 版 了 《Perceptron》 (感知 器 ) 一 
书 ， 指 出 感知 器 不 能 解决 高 阶 谓词 问题 ， 人 工 神经 网 络 的 研究 进入 一 个 低谷 期 。20 世 纪 80 年 代 以 后 ， 超 大 规模 集成 电路 、 脑 科学 、 生 物 学 、 光 学 的 迅速 发 展 为 人 工 神经 网 络 的 发 展 打 下 了 基础 ， 人 工 神经 区 
络 的 发 展 进入 兴盛 期 。 

人 工 神经 元 是 人 工 神经 网 络 操作 的 基本 信息 处 理 单位 。 人 工 神经 元 的 模型 如 图 5-6 所 示 ， 它 是 人 工 神经 网 络 的 设计 基础 。 一 个 人 工 神经 元 对 输入 信号 X= [x1，x2，.…，xm] 的 输出 y=f (u+b) ， 其 中 


u=2""， 公 式 中 名 字符 的 含义 如 图 5-6 所 示 ， 
m РРР 
输入 信号 


Х| 


图 5-6 ”人 工 神 经 元 模型 


激活 函数 主要 有 以 下 3 种 形式 ， 如 表 5-6 所 示 。 


表 5-6 激活 函数 分 类 表 


PAL eA 30 解释 说 明 


коо уз 小 ы 
数 的 输出 为 0; 当 函 数 的 
ee 于 0 26 
ша н L， 用 该 是 数 可 
以 把 输入 分 成 两 类 


成 值 函 数 【阶梯 函数 ) 


该 函数 在 ( -1，1) 线性 
区 内 的 放大 系数 是 一 致 的 ， 


ааа 这 种 形式 的 激活 函数 可 以 看 
作 是 非 线性 放大 器 的 近似 

ди S MO SER 

R 到 10, 1] B] BJ РА 

< Æ Z ыл J 经 
非 线 性 转移 函数 Ж, AT жишк ч А 


THEN, H ERNES 
ЖАНЕ рл РЕ 57 0), RE 
体现 数学 计算 上 的 优越 性 


人 工 神经 网 络 的 学 习 也 称 为 训练 ， 指 的 是 神经 网 络 在 受到 外 部 环境 的 刺激 下 调整 神经 网 络 的 参数 ， 使 神经 网 络 以 一 种 新 的 方式 对 外 部 环境 作出 反应 的 一 个 过 程 。 在 分 类 与 预测 中 ， 人 工 神 将 网 络 主要 使 
用 有 指导 的 学 习 方式 ， 即 根据 给 定 的 训练 样本 ， 调 整 人 工 神 网 络 的 参数 以 使 网 络 输出 接近 于 已 知 的 样本 类 标记 或 其 他 形式 的 因 变量 


在 人 工 神经 网 络 的 发 展 过程 中 ， 众 多 学 者 提出 了 多 种 不 同 的 学 习 规则 ， 没 有 一 种 特定 的 学 习 算 法 适用 于 所 有 的 网 络 结构 和 具体 问题 。 在 分 类 与 预测 中 ，8 学 习 规则 (误差 校正 学 习 算 法 ) 是 使 用 最 广泛 的 
一 种 。 误 差 校 正 学 习 算 法 根据 神经 网 络 的 输出 误差 对 神经 元 的 连接 强度 进行 修正 ， 属 于 有 指导 学 习 。 设 神经 网 络 中 神经 元 i 作 为 输入 ， 神 经 元 为 输出 神经 元 ， 它 们 的 连接 权 值 为 wj， 则 对 权 值 的 修正 为 


Awi=n8jYi， 其 中 为 学 习 率 ，6j=Tj-Y 为 j 的 偏差 ， 即 输出 神经 元 j 的 实际 输出 和 教师 信号 之 差 ， 示 意图 如 图 5-7 所 示 ， 


JOB w, 


输出 神经 元 
J 


йт 输出 值 为 7 


图 5-7 86 学 习 规则 示意 图 


7 为 期 户 值 


神经 网 络 训练 是 否 完成 常用 误差 函数 (也 称 目标 函数 ) E 来 衡量 。 当 误差 函数 小 于 某 一 个 设 定 的 值 时 即 停止 神经 网 络 的 训练 。 误 差 函 数 为 衡量 实际 输出 向 量 Yk 与 期 望 值 向 量 Tk 误 差 大 小 的 函数 ， 常 采用 二 
乘 误差 函数 来 定义 为 E=207 (8r Z-n, 2, a, NAJIR. 


使 用 人 工 神经 网 络 模型 需要 确定 网 络 连 接 的 拓扑 结构 、 神 经 元 的 特征 和 学 习 规 则 等 。 目 前 ， 已 有 近 40 种 人 工 神经 网 络 模型 ， 常 用 来 实现 分 类 和 预测 的 人 工 神经 网 络 算法 如 表 5-7 所 示 。 


表 5-7 人工 神经 网 络 算法 


算法 名 称 算法 描述 


BP 神经 网 络 是 一 种 按 识 差 逆 传 播 算 法 训练 的 多 层 有 前 局 网 络 ， 竺 习 算 法 是 5 学习 规 
则 ， 是 目前 应 用 最 广泛 的 神经 网 络 模型 之 


LM 神经 网 络 是 基于 梯度 下 降 法 和 牛顿 法 结合 的 多 层 前 僻 网 络 ， 特 点 : 迭代 次 数 少 ， 
收敛 速度 快 ， 精 确 度 高 


RBF 径 向 基 神 经 网 络 能 够 以 任意 精度 笛 近 任意 连续 图 数 ， 从 输入 层 到 隐 含 层 的 变换 
是 非 线 性 的 ， 而 从 隐 含 层 到 输出 层 的 变换 是 线性 的 ， 特 别 适合 于 解决 分 类 问题 


ENN 模糊 神经 网 络 是 具有 模糊 权 系数 或 者 输入 信号 是 模糊 量 的 神经 网 络 ， 是 模糊 系 
ENN 模糊 神经 网 络 统 与 神经 网 络 相 结合 的 产物 ， 它 汇聚 了 神经 网 络 与 模 贿 系统 的 优点 ， 集 联想 、 识 别 、 
自 适应 及 模糊 信息 处 理 于 一 体 


GMDH 网 络 也 称 为 多 项 式 网 络 ， 它 是 表 侣 神经 网 络 中 常用 的 
络 。 它 的 特点 是 网 络 结构 不 固定 ， 而 且 在 训练 过 程 中 不 断 改 变 


神经 网 络 锯 嵌 在 一 个 全 部 模糊 的 结构 之 中 ， 在 不 知 不 觉 中 向 训练 数据 学 习 ， 自 动产 
ANFIS 自 适应 神经 网 络 “| 生 、 修 正 并 高 度 概括 出 最 佳 的 输入 与 输出 变量 的 隶属 函数 以 及 模糊 规则 ;， 另外， 神经 
网 络 的 各 层 结构 与 参数 也 都 具有 了 明确 的 、 易 于 理解 的 物理 意义 


BP 神经 网 络 


LM 神经 网 络 


RBF 径 向 基 神 经 网 络 


GMDH 神经 网 络 种 用 于 预测 的 神经 网 


РЕ x А козлы y. -Т,]° s i ` 
BP 神经 网 络 的 学 习 算法 是 5 学 习 规则 ， 目 标 函 数 采用 E= 之 ”| ， 下 面 详细 介绍 BP 神经 网 络 算法 


BP (Back Propagation， 反 向 传播 ) 算法 的 特征 是 利用 输出 后 的 误差 来 估计 输出 层 的 直接 前 导 层 的 误差 ， 再 用 这 个 误差 估计 更 前 一 层 的 误差 ， 如 此 一 层 一 层 的 反 向 传播 下 去 ， 就 获得 了 所 有 其 他 各 层 
的 误差 估计 。 这 样 就 形成 了 将 输出 层 表现 出 的 误差 沿 着 与 输入 传送 相反 的 方向 逐 级 向 网 络 的 输入 层 传递 的 过 程 。 这 里 我 们 以 典型 的 三 层 BP 网 络 为 例 ， 描 述 标准 的 BP 算 法 。 图 5-8 所 示 的 是 一 个 有 3 个 输入 节 
点 ，4 个 隐 层 节点 ，1 个 输出 节点 的 一 个 三 层 BP 神 经 网 络 。 


5-8 三 层 BP 神 经 网 络 结构 


BP 算 法 的 学 习 过 程 由 信号 的 正 向 传播 与 误差 的 逆向 传播 两 个 过 程 组 成 。 正 向 传播 时 ， 输 入 信号 经 过 隐 层 的 处 理 后 ， 传 向 输出 层 。 佑 输出 层 节点 未 能 得 到 期 望 的 输出 ， 则 转 入 误差 的 逆向 传播 阶段 ， 将 输 
出 误差 按 某 种 子 形式 ， 通 过 隐 层 向 输入 层 返回 ， 并 “分 推 ” 给 隐 层 4 个 节点 与 输入 层 x1，Xx2，Xx3 三 个 输入 节点 ， 从 而 获得 各 层 单元 的 参考 误差 或 称 误差 信号 ， 作 为 修改 各 单元 权 值 的 依据 。 这 种 信号 正 向 传播 
与 误差 逆向 传播 的 各 层 权 和 矩阵 的 修改 过 程 ， 是 周而复始 进行 的 。 权 值 不 断 修改 的 过 程 ， 也 就 是 网 络 的 学 习 (或 称 训练 ) 过 程 。 此 过 程 一 直 进 行 到 网 络 输出 的 误差 逐渐 减少 到 可 接受 的 程度 或 达到 设 定 的 学 习 
次 数 为 止 ， 学 习 过 程 的 流程 图 如 图 5-9 所 示 。 


开始 
ЖЕРИН 3 МИН ИИИ. 


取 一 学 习 样本 作为 输入 信和 号 
{ 


中 间 层 节点 输出 的 计算 


输出 层 节点 输出 的 计算 
输出 层 节点 误差 的 计算 
É 


中 间 层 节点 误 3 


的 计算 


«Е Ета Nessa. 


иын 


—— 学 习 次 数 达 到 ? 一 一 
жөнө š 


95-9 ”BP 算法 学 习 过 程 流程 图 


算法 开始 后 ， 给 定 学 习 次 数 上 限 ， 初 始 化 学 习 次 数 为 0%， 对 权 值 和 立 值 赋予 小 的 随机 数 ， 一 般 在 [-1，1] 之 间 。 输 入 样本 数据 ， 网 络 正 向 传播 ， 得 到 中 间 层 与 输出 层 的 值 。 比 较 输 出 层 的 值 与 教师 信号 
值 的 误差 ， 用 误差 冰 数 E 来 判断 误差 是 否 小 于 误差 上 限 ， 如 不 小 于 误差 上 限 ， 则 对 中 间 层 和 输出 层 权 值 和 靖 值 进行 更 新 ， 更 新 的 算法 为 学习 规则 。 更 新 权 值 和 靖 值 后 ， 再 次 将 样本 数据 作为 输入 ， 


得 到 中 间 
层 与 输出 层 的 值 ， 计 算 误 差 E 是 否 小 于 上 限 ， 学 习 次 数 是 否 到 达 指 定 值 ， 如 果 达 到 ， 则 学 习 结束 。 


BP 算法 只 用 到 均 方 误差 水 数 对 权 值 和 阅 值 的 一 阶 导数 (梯度 ) 的 信息 ， 使 得 算 


法 存在 收敛 速度 缓慢、 易 陷入 局 部 极 小 等 缺陷 ， 在 应 用 中 可 根据 实际 情况 选择 适合 的 人 工 神经 网 络 算法 与 结构 ， 如 LM 神 
经 网 络 、RBF 径 向 基 神 经 网 络 等 


针对 表 5-5 的 数据 应 用 BP 神经 网 络 算法 进行 建 模 ， 其 R 语 言 代码 如 代码 清单 5-3 所 示 。 


代码 清单 5-3 ”BP 神经 网 络 算法 预测 销量 高 低 


## 设 置 工作 空间 

# 把 “数据 及 程序 ”文件 夹 复制 到 F 盘 下 ， 再 用 setwd 设 置 工作 空间 
setwd ("F: /数据 及 程序 /chapter5/ 示 例 程序 ") 

# 读 入 数据 

Data=read.csv ("./data/sales data.csv") [, 2: 5] 

# 数 据 命名 
те (nnet) 
colnames (Data) <-c ("х1", "х2", "х3", "у") 
Н у 
поде11=ппеі (у~., data=Data, size=6, decay=5e-4, тахії=1000) 

pred=predict (modell, Data [, 1: 3] , type="class") (P=sum (as.numeric (pred==Data$y) ) /nrow (Data) ) 
table (Data$y, pred) 

prop.table (table (Data$y, pred) , 1) 


* 代 码 详 见 : 示例 程序 /code/bp_neural_network.R 


运行 上 面 的 代码 ， 可 以 得 到 下 面 的 混淆 矩阵 图 ， 如 表 5-8 所 示 。 


合计 34 


从 表 5-8 可 以 看 出 ， 检 测 样本 为 34 个 ， 预 测 正确 的 个 数 为 26 个 ， 预 测 准确 率 为 76.5%， 预 测 准确 率 较 低 ， 是 由 于 神经 网 络 训练 时 需要 较 多 样本 ， 而 这 里 训练 数据 较 少 造成 的 。 


5.1.6 分 类 与 预测 算法 评价 


分 类 与 预测 模型 对 训练 集 进行 预测 而 得 出 的 准确 率 并 不 能 很 好 地 反映 预测 模型 未 来 的 性 能 ， 为 了 有 效 判断 一 个 预测 模型 的 性 能 表现 ， 需 要 一 组 没有 参与 预测 模型 建立 的 数据 集 ， 并 在 该 数据 集 上 评价 预 
测 模 型 的 准确 率 ， 这 组 独立 的 数据 集 叫 测试 集 。 模 型 预测 效果 评价 ， 通 常用 绝对 误差 与 相对 误差 、 平 均 绝对 误差 、 均 方 误 差 、 均 方 根 误差 等 指标 来 衡量 。 


(1) 绝对 误差 与 相对 误差 


设 Y 表 示 实 际 值 ,，? 表 示 预 测 值 ， 则 称 E 为 绝对 误差 (Absolute Error) ， 计 算 公 式 如 下 : 
T Р Pe аа 
Е = Ү- ү (5-5) 


e 为 相对 误差 (Relative Error) ， 计 算 公 式 如 下 : 


F Y 
ë: =Z —= 5-9 
Y (5-9) 
ү- ў | 
е = КЕ х 100% (5-10) 


这 是 一 种 直观 的 误差 表示 方法 。 
(2) 平均 绝对 误差 
平均 绝对 误差 (Mean Absolute Error，MAE) 定义 如 下 : 


МАЕ | |Y -YY 9-11) 


式 中 各 项 的 含义 如 下 : 
` MAE: 平均 绝对 误差 ; 
Бу 第 i 个 实际 值 与 预测 值 的 绝对 误差 ; 
Үг 第 i 个 实际 值 ; 
Ў: 第 i 个 预测 值 。 
由 于 预测 误差 有 正 有 负 ， 为 了 避免 正 负 相 抵消 ， 故 取 误 差 的 绝对 值 进行 综合 并 取 其 平均 数 ， 这 是 误差 分 析 的 综合 指标 法 之 一 。 
(3) 均 方 误差 


均 方 误差 (Mean Squared Error，MSE) 定义 如 下 : 


МЕЕ 2557 E — b ре. py (5-12) 
TL 


万 


— 


Ё = 
式 中 ，MSE 表 示 均 方差 ， 其 他 符号 同 前 。 
本 方法 用 于 还 原平 方 失真 程度 。 

均 方 误差 是 预测 误差 平方 之 和 的 平均 数 ， 它 避免 了 正 负 误 差 不 能 相 加 的 问题 。 由 于 对 误差 E 进 行 了 平方 ， 加 强 了 数值 大 的 误差 在 指标 中 的 作用 ， 从 而 提高 了 这 个 指标 的 灵敏 性 ， 是 一 大 优点 。 均 方 误差 是 
误差 分 析 的 综合 指标 法 之 一 。 
(4) 均 方 根 误差 


均 方 根 误差 (Root Mean Squared Error, RMSE) 定义 如 下 : 


J | ñ | п 5 
RMSE = |+ Е? = | 5. FaF y (5-13) 
Ап т ` n izl 
式 中 ，RMSE 表 示 均 方 根 误差 ， 其 他 符号 同 前 。 
这 是 均 方 误差 的 平方 根 ， 代 表 了 预测 值 的 离散 程度 ， 也 叫 标准 误差 ， 最 佳 拟 合 情 况 为 RMSE=0。 均 方 根 误差 也 是 误差 分 析 的 综合 指标 之 一 。 
(5) 平均 绝对 百 分 误 差 


平均 绝对 百 分 误 差 (Mean Absolute Percentage Error，MAPE) 定义 如 下 : 


МАРЕ = +5 БҮ | ==> | CE =fr | (5-14) 
і 


П 


та 


式 中 ，MAPE 表 示 平 均 绝 对 百 分 误 差 。 一 般 认 为 MAPE 小 于 10 时 ， 预 测 精度 较 高 。 
(6) Kappa 统 计 


Kappa 统 计 是 比较 两 个 或 多 个 观测 者 对 同一 事物 ， 或 观测 者 对 同一 事物 的 两 次 或 多 次 观测 结果 是 否 一 致 ， 以 由 机 遇 造 成 的 一 致 性 和 实际 观测 的 一 致 性 之 间 的 差别 大 小 作为 评价 基础 的 统计 指标 。Kappa 


b 


统计 量 和 加 权 Kappa 统 计量 不 仅 可 以 用 于 无 序 和 有 序 分 类 变量 资料 的 一 致 性 、 重 现 性 检验 ， 而 且 能 给 出 一 个 反映 一 致 性 大 小 的 “ 量 ” 值 。 
Kappa 取 值 在 [-1, 1] 之 间 ， 其 值 的 大 小 均 有 不 同意 义 : 
` Kappa=1 说 明 两 次 判断 的 结果 完全 一 致 ; 
. Kappa=-1 说 明 两 次 判断 的 结果 完全 不 一 致 ; 
` Kappa=0 说 明 两 次 判断 的 结果 是 机 遇 造 成 ; 
. Kappa<0 说 明 一 致 程度 比 机 遇 造 成 的 还 差 ， 两 次 检查 结果 很 不 一 致 ， 在 实际 应 用 中 无 意义 ; 
. Kappa>0 此 时 说 明 有 意义 ，Kappa 念 大 ， 说 明 一 致 性 愈 好 ; 
Kappa 之 0.75 说 明 已 经 取得 相当 满意 的 一 致 程度 ; 
Kappa<0.4 说 明 一 致 程度 不 够 。 
(7) 识别 准确 度 


识别 准确 度 (Accuracy) 定义 如 下 : 


| TP + FN 
Accuracy = ——— x 100% (5-15 
РОНЕ =P EIN £ ЕРЕК e i 
式 中 各 项 说 明 如 下 : 


- TP (True Positives) : 正确 的 肯定 表示 正确 肯定 的 分 类 数 ; 

ТМ (True Negatives) : 正确 的 否定 表示 正确 否定 的 分 类 数 ; 
ЕР (False Positives) : 错误 的 肯定 表示 错误 肯定 的 分 类 数 ; 

- FN (False Negatives) : 错误 的 否定 表示 错误 否定 的 分 类 数 。 
(8) 识别 精确 率 


识别 精确 率 (Precision) 定义 如 下 : 


Tp 
Precision = = x 100% (5-16) 


| ТР | 
açcall = —— x 100% о тй 
Кеса TP + TN x 100% (5-17) 


(10) ВОС 


受 试 者 工作 特性 (Receiver Operating Characteristic, КОС) 曲线 是 一 种 非常 有 效 的 模型 评价 方法 ， 可 为 选 定 临 界 值 给 
该 曲线 下 的 积分 面积 (Area) 大 小 与 每 种 方法 的 优 务 密切 相关 ， 反 映 分 类 器 正确 分 类 的 统计 概率 ， 其 值 越 接 近 1 说 明 该 算法 效果 越 好 。 


定量 提示 。 将 灵敏 度 (Sensitivity) 设 在 纵 轴 ，1- 特 异性 (1-Specificity) iZ 


在 横 轴 ， 融 可 得 出 ROC 曲 线 图 。 


(11) 混淆 和 矩阵 
9 一 种 常用 方法 。 假 设 对 于 N 类 模式 的 分 类 任务 ， 


混淆 矩阵 (Confusion Matrix) 是 模式 识别 领域 中 一 种 常用 的 表达 形式 。 它 描绘 样本 数据 的 真实 属性 与 识别 结果 类 型 之 间 的 关系 ， 是 评价 分 类 器 性 能 
类 器 C，cmi 表 示 第 类 模式 被 分 类 器 C 判 断 成 第 类 模式 的 数据 占 第 类 模式 样本 总 数 的 百分率 ， 则 可 得 到 


识别 数据 集 D 包 括 To 个 样本 ， 每 类 模式 分 别 含 有 Ti 个 数据 (i=1，...，N) 。 采 用 某 种 识别 算法 构造 分 ; 


NxN 维 混淆 和 矩阵 CM (C, р): 


аё "ри 


cm.. nsa ст, 


CM(C,D) 


C m W ai (` IT] А; айс Ü IT] A A 


混淆 和 矩阵 中 元 素 的 行 下 标 对 应 目标 的 真实 属性 ， 列 下 标 对 应 分 类 器 产生 的 识别 属性 。 对 角 线 元 素 表 示 各 模式 能 够 被 分 类 器 C 正 确 识别 的 百分率 ， 而 非 对 角 线 元 素 则 表示 发 生 错 误 判 断 的 百分率 。 


过 混淆 和 矩阵， 可 以 获得 分 类 器 的 正确 识别 率 和 错误 识别 率 : 


各 模式 正确 识别 率 : 
R. = cm., i | (5-19) 


E 


平均 正确 识别 率 


各 模式 错误 识别 率 : 


W. = у. cm. = ] — ст. = 
了 = 三】 „=: 
平均 错误 识别 率 
Е, = У y (em, • Т.)/Т, = 1 - R, (5-22) 
t=] J=] ,i 
对 于 一 个 二 分 类 预测 模型 ， 分 类 结束 后 的 混淆 矩阵 如 表 5-9 所 示 。 
表 5-9 ЖИЛЕ 
预测 类 
JE PB ЖЕ РЕЛЕ | 
类 =1 类 =0 
D 


实际 类 


如 有 150 个 样本 数据 ， 这 些 数据 分 成 3 类 ， 每 类 50 个 。 分 类 结束 后 得 到 的 混淆 矩阵 如 下 : 


则 第 1 行 的 数据 说明 有 43 个 样本 正确 分 类 ， 有 :5 个 样本 应 该 属于 第 一 类 ， 却 错误 地 分 到 第 二 类 ， 有 2 个 样本 应 属于 第 一 类 ， 却 错误 地 分 到 第 三 类 。 


b2 
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5.1.7”R 语 言 主要 分 类 与 预测 算法 函数 


分 类 与 预测 在 R 语 言 中 的 数据 挖掘 部 分 占有 很 大 比重 ， 其 沽 盖 多 个 算法 模块 ， 主 要 的 算法 模型 包含 神经 网 络 模块 的 分 类 模型 、 分 类 树 模型 、 集 成 学 习 分 类 模型 。 神 经 网 络 模型 包含 多 种 应 用 ， 如 聚 类 、 时 
间 序 列 、 模 式 识 别 ， 而 这 里 的 分 类 模型 主要 包含 人 工 神经 网 络 ， 其 函数 为 nnet。 分 类 树 模型 主要 是 指 机 器 学 习 中 的 分 类 树 和 回归 模型 ， 主 要 包括 rpart 国 数 。 集 成 学 习 分 类 模型 主要 指 机 器 学 习 中 的 集成 学 习 
模块 ， 其 函数 为 bagging， 通 过 改变 其 参数 ， 可 以 选择 不 同 的 分 类 模型 。 所 有 的 函数 如 表 5-10 所 示 。 


表 5-10 及 语言 主要 分 类 和 预测 函数 


дй 名 软 件 包 
lda() 构建 一 个 线性 判别 分 析 模 型 MASS 
NaiveBayes() 构建 一 个 朴素 贝 叶 斯 分 类 器 klaR 
knn() 构建 一 个 K 最 近邻 分 类 模型 class 
rpart() 构建 一 个 分 类 回归 树 模 型 rpart 、maptree 
bagging() 构建 一 个 集成 学 习 分 类 前 adabag 
randomForest( ) 构建 一 个 随机 森林 模型 randomForest 
svm() 构建 一 个 支持 向 量 机 模型 е1071 
nnet() 构建 一 个 人 工 识别 神经 网 络 nnet 


(1) Ida 

功能 : 构建 一 个 线性 判别 分 析 模 型 。 

' 使 用 格式 : 
lda (formula, data, +, na.omit) 
formula 根 据 数据 的 属性 数据 X 以 及 每 个 记录 对 应 的 类 别 数 据 y 构 建 一 个 线性 回归 的 公式 ;na.omit 自 动 删除 含有 缺失 值 的 观测 样本 。 
(2) NaiveBayes 

功能 : 构建 一 个 朴素 贝 叶 斯 分 类 器 。 

' 使 用 格式 : 
NaiveBayes (formula, data, =+, na.omit) 
参数 设置 与 lda () 类 似 。 

(3) knn 

: 构建 一 个 多 最 近邻 分 类 模型 ， 主 要 依靠 周转 有限 邻 近 样 本 的 信息 ， 对 于 有 交叉 重 登 的 待 分 类 样本 有 较 好 的 判别 效果 。 

' 使 用 格式 : 
knn (train, test, с, prob, use.all) 
knn () 函数 默认 选择 欧 氏 距离 来 寻找 所 需 的 K 的 最 近 样 本 ，train 和 test 参 数 代表 训练 集 和 测试 集 ，prob 控 制 其 中 多 数 类 的 比例 ，use.all 用 于 选择 再 出 现 “ 节 点 ”时 的 处 理 方式 。 
(4) rpart 

功能 : 构建 一 个 分 类 回归 树 模 型 ， 该 函数 可 以 根据 不 同 的 参数 构建 不 同 的 模型 ， 可 以 用 于 分 类 或 者 回归 。 

' 使 用 格式 : 
rpart (formula, data, ©, method) 


formula 为 建立 模型 的 公式 ，data 为 训练 集 ，method 用 于 设置 构建 的 树 的 类 型 ，method= “anova” 构建 一 个 回归 树 模型 ，method= “class” 构建 一 个 分 类 树 模 型 。 该 模型 的 性 能 依赖 于 算法 的 参 
数 设置 ， 如 果 这 些 参数 设置 不 合理 ， 将 导致 较 差 的 性 能 。 


(5) bagging 
功能 : 构建 一 个 集成 学 类 器 。 


.使 用 格式 : 


# 


bagging (formula, data, mfinal, control) 

formula 为 建立 模型 的 公式 ，data 为 训练 集 ，mfinal 表 示 算 法 的 迭代 次 数 ，control 用 于 控制 基 分 类 器 的 参数 ， 模 型 的 性 能 依赖 于 control 设 置 。 
(6) randomForest 

功能 : 构建 一 个 随机 森林 模型 。 

* 使 用 格式 : 

randomForest (fotmula，data，…，nhtree，mtty，impottance) 

formula 为 建立 模型 的 公式 ，data 为 训练 集 ，ntree 指 随机 森林 中 树 的 数目 ，mtry 用 来 决定 在 随机 森林 中 决策 树 的 每 次 分 支 时 所 选择 的 变量 个 数 ，importance 用 来 计算 各 个 变量 在 模型 中 的 重要 值 。 
(7) <ут 

`5: 构建 一 个 支持 向 量 机 模型 。 

* 使 用 格式 : 

svm (formula, data, ><, type, kernel) 


formula 为 建立 模型 的 公式 ，data 为 训练 集 ，type 是 指 建立 模型 的 类 别 。type 可 取 的 值 有 : C-classification、nu-classification、one-classification、eps-regression、nu-regression， 在 这 5 种 类 型 
前 三 种 是 针对 于 字符 型 结果 变量 的 分 类 方式 ， 后 两 种 则 是 针对 于 数量 结果 变量 的 分 类 方式 。 kernel 参 数 有 4 个 可 选 核 函 数 ， 分 别 为 线性 、 多 项 式 、 径 向 基 、 神 经 网 络 核 函 数 。 


(8) ппеї 

` 功能 : 构建 一 个 人 工 识别 神经 网 络 ， 主 要 用 来 建立 单 隐藏 层 的 前 馈 人 工 神经 网 络 模 型 。 
ЖАЖА: 

nnet (formula, data, ++, size, decay, maxit) 


formula 0, аата! Е, іле Ара НУТ лаи“, decay fiak У (АҢ, гах) АААХ, 


0] 何 晓 群 .应 用 回归 分 析 [M] .北京 : 中 国人 民 大 学 出 版 社 ，2011. 
[2] Quinlan J R.Induction of Decision Trees, Machine Learning [M] .1986, (1) : 81-106. 


[3] 张 良 均 . 神 经 网 络 从 入 门 到 精通 [M] .北京 : 机 械 工 业 出 版 社 ，2012: 11-12. 
[4] 周 春光 .计算 智能 [M] .吉林 大 学 出 版 社 ，2009: 43-44. 


餐饮 企业 经 常会 而 到 这 样 的 问题 : 
1) 如 何 通 过 餐饮 客户 消费 行为 的 测量 ， 进 一 步 评判 餐饮 客户 的 价值 并 对 餐饮 客户 进行 细 分 ， 找 到 有 价值 的 客户 群 和 需 关 注 的 客户 群 ? 


2) 如 何 合理 地 对 菜品 进行 分 析 ， 以 便 区 分 哪些 菜品 畅销 毛利 又 高 ， 哪 些 菜品 滞销 毛利 又 低 ? 


类 分 析 是 在 没有 给 定 划分 类 别 的 情况 下 ， 根 据 数据 相似 度 进行 样本 分 组 的 一 种 方法 。 与 分 类 模型 需要 使 用 有 类 标记 样本 构成 的 训练 数据 不 同 ， 聚 类 模型 可 以 建立 在 无 类 标记 的 数据 上 ， 
Ex 


类 
是 一 种 非 监督 的 学 习 算法 。 聚 类 的 输入 是 一 组 未 被 标记 的 样本 ， 聚 类 根据 数据 自身 的 距离 或 相似 度 将 它们 划分 为 若干 组 ， 划 分 的 原则 是 组 内 距离 最 小 化 而 组 间 (外 部 ) 距离 最 大 化 ， 如 图 5-10 所 示 。 


常用 聚 类 方法 如 表 5-11 所 示 。 


类 Яя! 


划分 RR) 方法 


层次 分 析 方 法 


基于 密度 的 方法 


类 Яя 
基于 网 格 的 方法 


基于 模型 的 方法 


常用 聚 类 算法 如 表 5-12 所 示 。 


图 5-10” 聚 类 分 析 建 模 原理 


表 5-11 常用 聚 类 方法 
包括 的 主要 算法 


K- Means 算法 (KK- 平 均 )、K- MEDOIDS 算法 (K- 中 心 点 ) CLARANS 算法 (基于 选择 的 
算法 ) 


BIRCH 算法 (平衡 选 代 规约 和 聚 类 ) 、CURE 算法 (RSR), CHAMELEON 算法 
(动态 模型 ) 


DBSCAN 算法 (基于 局 密度 连接 区 域 )、DENCLUE Aik (EA RR), OPTICS 算法 
(对 象 排 序 识别 ) 


(Ж) 
包括 的 主要 算法 


STING 算法 (统计 信息 网 络 ) CLIOUE 算法 ( 聚 类 高 维 空间 ) . WAVE- CLUSTER 算法 
(小 小 变换 ) 


统计 学 方法 、 神 经 网 络 方法 


表 5-12 常用 聚 类 分 析 算 法 


算法 名 称 算法 描述 


K- 均 值 聚 类 也 叫 BERRIS, 在 最 小 化 误差 国 数 的 基础 上 将 数据 划分 为 预定 的 类 数 天 。 该 算法 原理 


К-Меапз 和 何 单 并 便于 处 理 大 量 数据 


K- 均 值 算法 对 孤立 点 的 敏感 性 ，K- 中 心 点 算法 不 采用 镀 中 对 象 的 平均 值 作为 秘 中 心 ， 而 选用 入 中 


KK- 中 心 点 离 平 均值 最 近 的 对 象 作为 簇 中心 


系统 聚 类 Бен 次 聚 类 ， 分 类 的 单位 由 局 到 低 呈 树 形 第 构 ， 且 所 处 的 位 置 越 低 ， 其 所 包含 的 对 
RRRA 象 就 越 少 ， 但 这 些 对 和 象 则 的 共同 特征 越 多 。 该 聚 类 方法 只 适合 在 小 数据 量 时 使 用 ， 数据 量 大 时 速 
会 非常 1 


5.2.2 K-Means 聚 类 算法 


K-Means 算 法 [是 典型 的 基于 距离 的 非 层 次 聚 类 算法 ， 在 最 小 化 误差 函数 的 基础 上 将 数据 划分 为 预定 的 类 数 K， 采 用 距离 作为 相似 性 的 评价 指标 ， 即 认为 两 个 对 象 的 距离 越 近 ， 其 相似 度 就 越 大 。 
1. 算 法 过 程 

1) 从 N 个 样本 数据 中 随机 选取 K 个 对 象 作为 初始 的 聚 类 中 心 ; 

2) 分 别 计算 每 个 样本 到 各 个 聚 类 中 心 的 距离 ， 将 对 象 分 配 到 距离 最 近 的 聚 类 中 ; 

3) 所 有 对 象 分 配 完 成 后 ， 重 新 计算 K 个 聚 类 的 中 心 ; 

4) 与 前 一 次 计算 得 到 的 K 个 聚 类 中 心 比较 ， 如 果 聚 类 中 心 发 生变 化 ， 转 2) ， 否 则 转 5) ; 

5) 当 质 心 不 发 生变 化 时 停止 并 输出 聚 类 结果 。 


聚 类 的 结果 可 能 依赖 于 初始 聚 类 中 心 的 随机 选择 ， 可 能 使 得 结果 严重 偏离 全 局 最 优 分 类 。 实 践 中 ， 为 了 得 到 较 好 的 结果 ， 通 常 以 不 同 的 初始 聚 类 中 心 ， 多 次 运行 -Means 算 法 。 在 所 有 对 象 分 配 完成 
， 重 新 计算 K 个 聚 类 的 中 心 时 ， 对 于 连续 数据 ， 聚 类 中 心 取 该 艇 的 均值 ， 但 是 当 样 本 的 某 些 属性 是 分 类 变量 时 ,均值 可 能 无 定义 ， 可 以 使 用 K- 众 数 方法 。 


1 


2. 数 据 类 型 与 相似 性 的 度量 

(1) 连续 属性 

对 于 连续 属性 ， 要 先 对 各 属性 值 进行 零 均 值 规范 化 ， 再 进行 距离 的 计算 。K-Means 聚 类 算法 中 ， 需要 度量 样本 之 间 的 距离 、 样 本 与 艇 之 间 的 距离 以 及 艇 与 簇 之 间 的 距离 。 

度量 样本 之 间 的 相似 性 最 常用 的 是 欧 几 里 得 距离 、 曼 哈 顿 距离 和 闵可夫 斯 基 距 离 ， 样 本 与 簇 之 间 的 距离 可 以 用 样本 到 簇 中 心 的 距离 d (ei, x) ; 簇 与 艇 之 间 的 距离 可 以 用 簇 中 心 的 距离 d (ei, еј) . 


用 p 个 属性 来 表示 n 个 样本 的 数据 矩阵 如 下 : 


= $ d- 
“= т = 
T ы = 


欧 几 里 得 距离 : 


4(2,7) 


曼哈顿 距离 : 


d (1,]) 


闵可夫 斯 基 距 离 : 


| 


d(i,j) = /(|xa = 1) + (а = 1) ++ + ( |z, — z |)" (5225) 


9 为 正 整数 ，q=1 时 即 为 曼哈顿 距离 ; q=2 时 即 为 欧 几 里 得 距离 。 
(2) 文档 数据 
对 于 文档 数据 使 用 余弦 相似 性 度量 ， 先 将 文档 数据 整理 成 文档 一 词 矩 阵 格 式 ， 如 表 5-13 所 示 。 


表 5-13 011—9 


in] " | | 


c| i [з [эз | a i е [| éa] |， 
x: | э | | |; |o u з ГГ 


两 个 文档 之 间 的 相似 度 计算 公式 为 : 
200,3): = ков) = 一 一 一 (5-26) 


3. 目 标 函 数 


КЕРА 751055Е(Е ЕЕЕ АЈА ЕА, УРРА) ОВЕН, 


连续 属性 的 SSE 计 算 公式 为 : 


文档 数据 的 SSE 计 算 公 式 为 : 


K 
SSE = 2 2 
= | 


簇 E 的 聚 类 中 心 ei 计算 公式 为 : 


; uka | 


下 面 结 合 具体 案例 来 实现 本 节 开 始 提出 的 问题 。 


部 分 餐饮 客户 的 消费 行为 特征 数据 如 表 5-15 所 示 。 根 据 这 些 数 据 将 客户 分 类 成 不 同 客户 群 ， 并 评价 这 些 客 


选择 误差 平方 和 较 小 的 分 类 


表 5-15 消费 行为 特征 数据 


ID R (最 近 一 次 消费 时 间 间 隔 ) 
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* 数 据 详 见 : 示例 程序 /data/consumption_data.csv 
采用 K-Means 聚 类 算法 ， 设 定 聚 类 个 数 K 为 3， 距 离 国 数 默认 为 欧 氏 距离 。 
K-Means 聚 类 算法 的 R 语 言 代码 如 代码 清单 5-4 所 示 。 


代码 清单 5-4 K-Means 聚 类 算法 代码 


setwd ("F: /数据 及 程序 /chapter5/ 示 例 程序 ") 


km=kmeans (Data, center=3) 

print (km) 

km$size/sum (km$size) 

# 数 据 分 组 

aaa=data.frame (Data, km$cluster) Datal=Data [which (aaa$km.cluster==1) 
Data2=Data [which (aaa$km.cluster==2) ， 

Data3=Data [which (aaa$km.clust ter==3) , ] 

par (mfrow=c (1, 3) ) E 分 群 а 的 概率 密度 函数 图 

plot (density (Datal [, 1] ) ， 1="геа", main="R") 

plot (density (Datal [, 2] ) ， col" rad" main="F") 


Data=read.csv ("./data/consumption data.csv", header=T) [, 2: 4] # 读 入 数据 


‚ ] 


结果 。 


户 群 的 价值 。 


(消费 频率 ) 


< 


579 
616 
394 


1086 


(5-27) 


(5-28) 


(5-29) 


x 


1% Е; 鸣 聚 类 中 心 
个 包 中 样本 的 个 数 


( 消费 总 金额 ) 


plot (density (Datal [, 3] ) , col="red", main="M") 
par (mfrow=c (1, 3) ) ## 客 户 分 群 “2” 的 概率 密度 函数 图 
plot (density (Data2 [, 1] ) , col="red", main="R") 
plot (density (Data2 [, 2] ) , col="red", main="F") 
plot (density (Data2 [, 3] ) , col="red", main="M") 
par (mfrow=c (1, 3) ) # 客 户 分 群 “3” 的 概率 密度 函数 图 
plot (density (Data3 [, 1] ) , col="red", main="R") 
plot (density (Data3 [, 2] ) , col="red", main="F") 
plot (density (Data3 [, 3] ) , col="red", main="M") 


* 代 码 详 见 : 示例 程序 /code/K-Means.R 
执行 K-Means 聚 类 算法 输出 的 结果 如 表 5-16 所 示 。 


表 5-16 聚 类 算法 输出 结果 


分 群 类 别 分 群 2 分 群 3 
样本 个 数 352 370 218 


图 5-11~ 图 5-13 为 R 语 言 绘制 的 不 同 客户 分 群 的 概率 密度 函数 图 ， 通 过 这 些 图 能 直观 地 比较 不 同 客户 群 的 价值 。 
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图 5-11 分群 1 的 概率 密度 函数 图 


ый, 
єс = = 
D Шш 
5 = 一 
< 十 
© 
一 
= с 
СЧ = 
5 S S 
| чы © 
ЕА = Е 
Н ЭН сз 8 > 
= š = 
= ima © 
D 
= 
а" ай 
= = = 
: © 一 
一 о 
0) 40 s) 120 0 10 20 30 600 1000 1400 
М№= 357 Bandwidth = 3.524 М = 357 Bandwidth = 2.094 М = 357 Bandwidth = 60.49 
5-12 分群 2 的 概率 密度 函数 图 
R F M 
= Ж 
2 Ë = 
= 
Te 
== 
= = 
с = 
一 一 
ы © ы z ы 5 
= 
ee = 
一 Сч = 
Ea = : 
с Э 
5 
= == = 
= = = 
=; = = ws 
() 40 0 () 10 20 30 —200 200 600 1000 
N=372 Bandwidth = 2.878 N=372 Bandwidth = 1.838 М = 372 Bandwidth = 62.69 
图 5-13 ”分 群 3 的 概率 密度 函数 图 
客户 价值 分 析 


分 群 1 特点 : R 分 布 在 10~30 天 ; 消费 次 数 集中 在 ?~30 次 ; 消费 金额 在 1600~2000 元 。 

分 群 2 特点 : R 分 布 在 20~45 天 ; 消费 次 数 集中 在 ?~25 次 ; 消费 金额 在 800~ 1600 元 。 

分 群 3 特 点 : R 分 布 在 30~60 天 ; 消费 次 数 集中 在 1~10 次 ; 消费 金额 在 200~ 800 元 。 

对 比分 析 : 分 群 1 时 间 间 隔 较 短 ， 消 费 次 数 多 ， 而 且 消费 金额 较 大 ， 是 高 消费 高 价值 人 群 。 分 群 2 的 时 间 间 隔 、 消 费 次 数 和 消费 金额 处 于 中 等 水 平 。 分 群 3 的 时 间 间 隔 较 长， 消费 次 数 和 消费 金额 处 于 较 
低 水 平 ， 是 价值 较 低 的 客户 群体 。 
523 ” 聚 类 分 析 算 法 评价 

聚 类 分 析 仅 根据 样本 数据 本 身 将 样本 分 组 。 其 目标 是 ， 组 内 的 对 象 相互 之 间 是 相似 的 (相关 的 ) ， 而 不 同 组 中 的 对 象 是 不 同 的 不 相关 的 ) 。 组 内 的 相似 性 越 大 ， 组 间 差别 越 大 ， 聚 类 效果 就 越 好 。 

(1) purity 评 价 法 


purity 方 法 是 极为 简单 的 一 种 聚 类 评价 方法 ， 只 需 计 算 正确 聚 类 数 占 总 数 的 比例 : 


purity( X,Y) = EY max EA AY, | (5-30) 


ГІ. L 
式 中 ，x= (х, X2, ...‚ X.) 是 聚 类 的 集合 。xk 表 示 第 k 个 聚 类 的 集合 。y= (yj, Y2, .., Ук) 表示 需要 被 聚 类 的 集合 ，yi 表 示 第 i 个 聚 类 对 象 。n 表 示 被 聚 类 集合 对 象 的 总 数 。 
(2) RI 评价 法 


实际 上 这 是 一 种 用 排列 组 合 原理 对 聚 类 进行 评价 的 手段 ，RI 评 价 公式 如 下 : 


i a t __ (5-31) 
Кк+М+р + 
式 中 ，R 指 被 聚 在 一 类 的 两 个 对 象 被 正确 分 类 了 ; W 指 不 应 该 被 聚 在 一 类 的 两 个 对 象 被 正确 分 开 了 ; M 指 不 应 该 放 在 一 类 的 对 象 被 错误 地 放 在 了 一 类 ; D 指 不 应 该 分 开 的 对 象 被 错误 地 分 开 了 。 
(3) F 值 评价 法 


这 是 基于 上 述 RI 方法 衍生 出 的 一 个 方法 ，F 评 价 公式 如 下 : 


Р.в MEUA (5-32) 
ар+г 


{К 


R R 
IP, р=к+м, r=R+D。 


实际 上 RI 方法 就 是 把 准确 率 p 和 召回 率 r 看 得 同等 重要 ， 事 实 上 有 了 时候 我 们 可 能 需要 某 一 特性 更 多 一 点 ， 这 时 候 就 适合 使 用 F 值 方法 。 


524 R 语 言 主要 聚 类 分 析 算 法 函数 


R 语 言 里 面 实 现 的 聚 类 主要 包括 : K- 均 值 聚 类、K- 中 心 点 聚 类 、 密 度 聚 类 以 及 EM 聚 类 ， 其 主要 相关 函数 如 表 5-17 所 示 。 


表 5-17 聚 类 主要 函数 列表 


TE 软件 包 


kmeans() М8 — T КЪ ВИА ЖЕ Ba yu stats 
pam() 构建 一 个 K- 中 心 点 聚 类 模型 cluster 
dbscan() 构建 一 个 密度 聚 类 模型 [рс 
Мс1ивї() 构建 一 个 EM Ж {+ mclust 


(1) kmeans 
功能 : 构建 一 个 KK- 均 值 聚 类 模型 。 
` 使 用 格式 : 
kmeans (data, centers, iter.max, nstart, algorithm) 


data 为 聚 类 分 析 的 数据 集 ，centers 为 预 设 类 别 数 k，iter.max 为 迭代 的 最 大 值 ， 默 认为 10，nstart 为 选择 随机 起 始 中 心 点 的 次 数 ，algorithm 为 聚 类 的 算法 。 其 中 ，algorithm 的 参数 值 ， 分 别 为 
Hartigan-Wong 距 离 算法 、Lloyd 距 离 算法 、For-gy 距 离 算 法 、MacQueen 距 离 算法 。Hartigan-Wong 距 离 算 法 ， 通 常情 况 下 性 能 优良 ， 为 默认 算法 


实例 : 使 用 kmeans 函 数 构 建 一 个 聚 类 模型 ， 并 使 用 图 表示 聚 类 记录 以 及 聚 类 中 心 。 


set.seed (2) 

x=matrix (rnorm (50*2) ， ncol=2) 
x [1: 25, 1] =x [1: 25, 1] +3 
x [1: 25, 2] =x [1: 25, 2] -4 
km.out=kmeans (x, 2, nstart=20) 

km. out$cluster 

plot (x, col= (km.out$cluster+1) , main="K-Means Clustering Results with K=2", 
xlab="", ylab="", рсһ=20, сех=2) 

km. out$centers 

points (km.out$centers [1, 1] , km.out$centers [1, 2] , pch=10, col="red", cex=2) 
points (km.out$centers [2, 1] , km.out$centers [2, 2] , pch=10， col="blue", cex=2) 


其 聚 类 记录 及 聚 类 中 心 如 图 5-14 所 示 。 


—2 Ü 2 4 


5-14 聚 类 中 心 及 样本 图 


(2) pam 


' 功能: 构建 一 个 K- 中 心 点 聚 类 模型 。 


` 使 用 格式 : 

pam (data, k, metric, =+, medoids) 

data 为 待 聚 类 的 数据 集 ，k 为 待 处 理 数据 的 类 别 数 ，metric 用 于 选择 样本 点 间距 离 测 算 的 方式 ，medoids 默 认 取 NULL， 即 由 软件 选择 出 中 心 点 样本 ， 也 可 以 设 定 一 个 k 维 向 量 来 指定 初始 点 。 
(3) dbscan 


功能 : 构建 一 个 密度 聚 类 模型 。 
` 使 用 格式 : 
dbscan (data, eps, MinPts, scale, method, :::) 


data 为 待 聚 类 的 数据 集 ; eps 为 考察 每 一 样本 点 是 否 满足 密度 要 求 时 ， 所 划 定 考察 邻 域 的 半径 ;MinPts 为 密度 阅 值 ;scale 用 于 选择 是 否 在 聚 类 前 先 对 数据 进行 标准 化 ; method 参 数 用 于 选择 认定 的 
data 数 据 集 的 形式 。 


(4) Mclust 

HR: 构建 一 个 EM 聚 类 模型 。 

* 使 用 格式 : 

Mclust (data, G, modelNames, :::) 

data 为 待 聚 类 的 数据 集 ;G 为 预 设 类 别 数 ， 默 认 值 为 1 至 9， 由 软件 根据 BIC 值 选择 最 优 值 ; modelNames 用 于 设 定 模型 类 别 ， 也 由 函数 自动 选取 最 优 值 。 


[1 张 良 均 .数据 挖 据 : 实用 案例 分 析 [М] .北京 : 机 械 工业 出 版 社 ，2013. 


5.3 ЖЕМІ!) 


下 面 通过 和 餐饮 企业 中 的 一 个 实际 情景 引出 关联 规则 的 概念 。 客 户 在 餐厅 点 餐 时 ， 面 对 菜单 中 大 量 的 菜品 信息 ， 往 往 无 法 迅速 找到 满意 的 菜品 ， 既 增加 了 点 菜 的 时 间 ， 也 降低 了 客户 的 就 餐 体验 。 实 际 
合理 搭配 是 有 规律 可 循 的 : 顾客 的 饮食 习惯 、 菜 品 的 芝 素 和 口味 ， 有 些 菜品 之 间 是 相互 关联 的 ， 而 有 些 菜品 之 间 是 对 了 立 或 竞争 关系 (MAK) ， 这 些 规律 都 隐藏 在 大 量 的 历史 菜单 数据 中 ， 如 果 
能 够 通过 数据 挖掘 发 现 客户 点 餐 的 规则 ， 就 可 以 快速 识别 客户 的 口味 ， 当 他 下 了 某 个 菜品 的 订单 时 推荐 相关 联 的 菜品 ， 引 导 客 户 消费 ， 提 高 顾客 的 就 餐 体验 和 餐饮 企业 的 业绩 水 平 。 


关联 规则 分 析 也 称 为 购物 篮 分 析 ， 最 早 是 为 了 发 现 超市 销售 数据 库 中 不 同 的 商品 之 间 的 关联 关系 。 例 如 ， 一 个 超市 的 经 理想 要 更 多 地 了 解 顾 客 的 购物 习惯 ， 如 “ 哪 组 商品 可 能 会 在 一 次 购物 中 同时 购 
买 ? ”或 者 “ 某 顾客 购买 了 个 人 电脑 ， 那 该 顾客 三 个 月 后 购买 数码 相机 的 概率 有 多 大 ? ”他 可 能 会 发 现 如 果 购 买 了 面包 的 顾客 同时 非常 有 可 能 会 购买 牛奶 ， 这 就 导出 了 一 条 关联 规则 “面包 之 牛奶 ”， 其 中 
面包 称 为 规则 的 前 项 ， 而 牛奶 称 为 后 项 。 通 过 对 面包 降低 售 价 进行 促销 ， 而 适当 提高 牛奶 的 售 价 ， 关 联 销售 出 的 牛奶 就 有 可 能 增加 超市 整体 的 利润 。 


关联 规则 分 析 是 数据 挖掘 中 最 活跃 的 研究 方法 之 一 ， 目 的 是 在 一 个 数据 集中 找 出 各 项 之 间 的 关联 关系 ， 而 这 种 关系 并 没有 在 数据 中 直接 表示 出 来 。 
5.3.1 ”常用 关联 规则 算法 


常用 关联 算法 如 所 表 5-18 所 示 。 


表 5-18 常用 关联 规则 工法 


算法 名 称 算法 描述 
关联 规则 最 常用 也 是 最 经 典 的 挖掘 频繁 项 集 的 算法 ， 其 核心 思想 是 通过 连接 产生 候选 项 及 其 


支持 度 然 后 通过 前 枝 生成 频繁 项 集 
w. 针对 Apriori 算法 固有 的 多 次 扫描 事务 数据 集 的 缺陷 ， 提 出 的 不 产生 候选 频繁 项 集 的 方法 。 
| = Арпоп 和 | FP- Tree 都 是 Bi ае йы 
Бр Folat 算法 是 一 种 深度 优先 算法 ， 采 用 垂直 数据 表示 形式 ， 在 概念 格 理论 的 基础 上 利用 基于 前 
| 级 的 等 价 关系 将 搜索 空间 划分 为 较 小 的 子 空间 

{ЖИЙ E: = [| [ГУ ЕЩЦ ЖЕН ну лет F P 2 JT 
灰色 关联 法 分 析 和 确定 各 因素 之 间 的 影响 程度 或 是 大 干 个 于 因 系 (于 厅 列 ) HEAR (FY) [ушт 


度 而 进行 的 一 种 分 析 方 法 
本 节 重 点 详细 介绍 Apriori 算 法 。 


5.3.2 Apriori 算 法 


以 超市 销售 数据 为 例 ， 提 取 关 联 规则 的 最 大 困难 在 于 当 存 在 很 多 商品 时 ， 可 能 的 商品 组 合 (规则 的 前 项 与 后 项 ) 的 数目 会 达到 一 种 令 人 望而却步 的 程度 。 因 而 各 种 关联 规则 分 析 的 算法 从 不 同方 面 入 手 
减 小 可 能 的 搜索 空间 的 大 小 以 及 扫描 数据 的 次 数 。Aprioril] 算 法 是 最 经 典 的 挖掘 频繁 项 集 的 算法 ， 第 一 次 实现 了 在 大 数据 集 上 可 行 的 关联 规则 提取 ， 其 核心 思想 是 通过 连接 产生 候选 项 与 其 支持 度 然后 通过 
ВЕРДЕ, 


1. 关 联 规则 和 频繁 项 集 
(1) 关联 规则 的 一 般 形 式 


项 集 A、B 同 时 发 生 的 概率 称 为 关联 规则 的 支持 度 (也 称 相对 支持 度 ) : 
Support( 4 一 有) = Р(А Г В) (5-33) 


项 集 A 发 生 ， 则 项 集 B 发 生 的 概率 为 关联 规则 的 置信 度 : 


Confidence(A=B) = P(B|A) (5-34) 


最 小 支持 度 是 用 户 或 专家 定义 的 衡量 支持 度 的 一 个 阅 值 ， 表 示 项 目 集 在 统计 意义 上 的 最 低 重 要 性 ; 最 小 置信 度 是 用 户 或 专家 定义 的 衡量 置信 度 的 一 个 靖 值 ， 表 示 关 联 规则 的 最 低 可 靠 性 。 同 时 满足 最 小 
支持 度 阅 值 和 最 小 置信 和 度 立 值 的 规则 称 作 强 规则 。 


(3) 项 集 

项 集 是 项 的 集合 。 包 含 K 个 项 的 项 集 称 为 k 项 集 ， 如 集合 (牛奶 ， 麦 片 ， 糖 是 一 个 3 项 集 ， 

项 集 的 出 现 频率 是 所 有 包含 项 集 的 事务 计数 ， 又 称 作 绝对 支持 度 或 支持 度 计 数 。 如 果 项 集 | 的 相对 支持 度 满足 预定 义 的 最 小 支持 度 闭 值 ， 则 | 是 频繁 项 集 。 频 繁 K 项 集 通 常 记 作 Li 

(4) 支持 度 计数 

项 集 A 的 支持 度 计数 是 事务 数据 集中 包含 项 集 A 的 事务 个 数 ， 简 称 为 项 集 的 频率 或 计数 ， 

已 知 项 集 的 支持 度 计数 ， 则 规则 A->B 的 支持 度 和 置信 度 很 容易 从 所 有 事务 计数 、 项 集 A 和 项 集 ANB 的 支持 度 计数 推出 : 

_ А,В 同时 发 生 的 事务 个 数 ” Support_count(A N B) 

所 有 事务 个 数 Total_count( A) 

Support( A N В) _ Support count( A N В) 
Support( A) Support_count(A) 


Support ( AB) 


Confidence(A=B) = P(A | B) 


也 就 是 说 ， 一 旦 得 到 所 有 事务 个 数 ，A，B 和 AnB 的 支持 度 计 数 ， 就 可 以 导出 对 应 的 关联 规则 AB 和 B 一 A， 并 可 以 检查 该 规则 是 否 是 强 规 则 。 
在 R 语 言 中 实现 上 述 Apriori 算 法 的 代码 如 代码 清单 5-5 所 示 。 
代码 清单 5-5”Apriori 算 法 调用 代码 


HEHREN [а] 

library ( arules ) 

# 把 “数据 及 程序 ”文件 夹 复制 到 F 盘 下 ， 再 用 Setwd 设 置 工作 空间 

setwd ("Е: / 数据 及 程序 /chapter5/ 示 例 程序 ") 

# 读 入 数据 

data=read.table () 

tr <- read.transactions ("./data/menu orders.txt", format = "basket", зер=", ") 
summary (tr) 

inspect (tr) 

# 支 持 度 0 .2， 置 信 度 0 .5 

rules0= =apriori (tr, parameter=list (support=0.2, confidence=0.5) ) 
rules0 

inspect (rules0) 


* 代 码 详 见 : 示例 程序 /code/cal_aptiotri.R 

2.Apriori 算 法 : 使 用 候选 产生 频繁 项 集 

Apriori 算 法 的 主要 思想 是 找 出 存在 于 事务 数据 集中 最 大 的 频繁 项 集 ， 在 利用 得 到 的 最 大 频繁 项 集 与 预先 设 定 的 最 小 置信 和 度 立 值 生成 强 关 联 规则 。 
(1) Apriori 的 性 质 

频繁 项 集 的 所 有 非 空子 集 也 必须 是 频繁 项 集 。 根 据 该 性 质 可 以 得 出 : 向 不 是 频繁 项 集 | 的 项 集中 添加 事务 A， 新 的 项 集 InA 一 定 也 不 是 频繁 项 集 。 
(2) Apriori 算 法 实现 的 两 个 过 程 

1) 找 出 所 有 的 频繁 项 集 (支持 度 必须 大 于 等 于 给 定 的 最 小 支持 度 阅 值 ) ， 在 这 个 过 程 中 连接 步 和 剪 校 步 互 相 融 合 ， 最 终 得 到 最 大 频繁 项 集 Lk。 
Q@ 连 接 步 


连接 步 的 目的 是 找到 k 项 集 。 对 给 定 的 最 小 支持 度 阅 值 ， 分 别 对 1 项 候选 集 C1， 吻 除 小 于 该 立 值 的 项 集 得 到 1 项 频繁 集 L1;， 下 一 步 由 L1 自 身 连接 产生 2 项 候选 集 C2， 保 留 C2 中 满足 约束 条 件 的 项 集 得 到 2 项 
频繁 集 ， 记 为 L2; 再 下 一 步 由 L2 与 L1 连 接 产 生 3 项 候选 集 C3， 保 留 C2 中 满足 约束 条 件 的 项 集 得 到 3 项 频繁 集 ， 记 为 L3.….. 这 样 循环 下 去 ， 得 到 最 大 频繁 项 集 Lk。 


Qiz: 


剪 枝 步 紧 接 着 连接 步 ， 在 产生 候选 项 Ck 的 过 程 中 起 到 减 小 搜索 空间 的 目的 。 由 于 Cl 是 Lk 1 与 LI 连接 产生 的 ， 根 据 Apriori 的 性 质 频繁 项 集 的 所 有 非 空子 集 也 必须 是 频繁 项 集 ， 所 以 不 满足 该 性 质 的 项 集 将 
不 会 存在 于 Cl 中， 该 过 程 就 是 剪 枝 。 


2) 由 频繁 项 集 产生 强 关联 规则 :由 过 程 1) 可 知 未 超过 预定 的 最 小 支持 度 闭 值 的 项 集 已 被 列 除 ， 如 果 剩 下 这 些 规则 又 满足 了 预定 的 最 小 置信 度 阔 值 ， 那 么 就 挖 气 出 了 强 关联 规则 。 
下 面 将 结合 餐饮 行业 的 实例 来 讲解 Apriori 关 联 规则 算法 挖 握 的 实现 过 程 。 数 据 库 中 部 分 点 餐 数 据 如 表 5-19 所 示 。 


表 5-19 ”数据 库 中 部 分 点 餐 数据 


Z=- T — 


首先 将 表 5-19 中 的 事务 数据 (一 种 特殊 类 型 的 记录 数据 ) 整理 成 关联 规则 模型 所 需 的 数据 结构 ， 从 中 抽取 10 个 点 餐 订 单 作 为 事务 数据 集 ， 设 支持 度 为 0.2 (支持 度 计 数 为 2) ， 为 方便 起 见 将 菜品 
{18491，8842，8693，7794，8705} 分 别 简 记 为 {a，b，c，d，e}) 如 表 5-20 所 示 。 


л 


~】 


表 5-20 某 餐 厅 事 务 数据 集 


Te 8491, 8842, 8693, 8705 |a, b, с, ‹ 
| 


E 


18491, 8842, 8693, 7794 18491, 8842, 8693 йб бф» б 


18491, 8842 а, Ü 18491, 8693, 8705 a, с, е 


算法 过 程 如 图 5-15 所 示 。 


ыл 


ЫЛЕ? 
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1} 0. 7 | 
иии жн 比较 候选 支持 度 


得 到 每 个 候选 项 的 支持 度 


2m i KR 

FAE Maal 02 | 与 最 小 支持 度 得 2 项 | Den | 0.5 | 
жн 
 {с,е} | 3 | 


HL, SL yE 比较 候选 支持 度 
产生 候选 C， наглед 


5-15 ”Apriori 算 法 实现 过 程 


过 程 一 : 找 最 大 Kk 项 频繁 集 。 


项 集 lal 的 支持 度 计 数 
1) 算法 简单 扫描 所 有 的 事务 ， 事 务 中 的 每 一 项 都 是 候选 1 项 集 的 集合 C1 的 成 员 ， 计 算 每 一 项 的 支持 度 ,如 P ah = 所 有 事务 个 数 。” =7/10=0.7。 


2) 对 C1 中 各 项 集 的 支持 度 与 预先 设 定 的 最 小 支持 度 阐 值 作 比 较 ， 保 留 大 于 或 等 于 该 阅 值 的 项 ， 得 1 项 频繁 集 L1。 


项 集 ja, b] 的 支持 度 计 数 
3) 扫描 所 有 事务 ，L1 与 L1 连 接 得 候选 2 项 集 C2， 并 计算 每 一 项 的 支持 度 ， 如 P (a, b)) = 所 有 事务 个 数 =5/10= 0.5。 接 下 来 是 剪 梳 步 ， 由 于 C? 的 每 个 子 集 ( 即 L1) 都 是 频繁 集 ， 所 以 没有 项 


集 从 C2 中 剔除 。 


4) 对 C2 中 各 项 集 的 支持 度 与 预先 设 定 的 最 小 支持 度 阅 值 作 比 较 ， 保 留 大 于 或 等 于 该 阅 值 的 项 ， 得 2 项 频繁 集 L2。 


项 集 la, b, сі 的 支持 度 计数 
5 扫描 所 有 事务 ，L2 与 L1 连 接 得 候选 3 项 集 C3， 并 计算 每 一 项 的 支持 度 ， 如 P ({а, b, c) = 所 有 事务 个 数 =3/10=0.3。 接 下 来 是 剪 枝 步 ，L2 与 L1 连 接 的 所 有 项 集 为 : (a, b, c). 


(a, b, d). (a, b, е}, (a, с, d). (a, с, е}, (b, c,d}、{b，c，e}。 根 据 Apriori 算 法 ,频繁 集 的 所 有 非 空 子 集 也 必须 是 频繁 集 ， 因 为 人 人，d}、{b，e}、{c，d} 不 包含 在 b 项 频繁 集 L2 中 ， 即 不 是 频繁 集 ， 


应 剔除 ， 最 后 的 C3 中 的 项 集 只 有 {a，b，cj 和 {a，c，ej。 
6) 对 C3 中 各 项 集 的 支持 度 与 预先 设 定 的 最 小 支持 度 阅 值 作 比 较 ， 保 留 大 于 或 等 于 该 阅 值 的 项 ， 得 3 项 频繁 集 L3。 
7) L3 与 1 连接 得 候选 4 项 集 C4， 易 得 剪 枝 后 为 空 集 。 最 后 得 到 最 大 3 项 频繁 集 {a,，b,，d 和 和 {a,c，e}。 
由 以 上 过 程 可 知 L1、L2、L3 都 是 频繁 项 集 ，L3 是 最 大 频繁 项 集 。 
过 程 二 : 由 频繁 集 产生 关联 规则 。 
置信 度 的 计算 公式 为 : 
| 5 Support(A N В) Support count(A N В) 
Gonfidence(A— PB) = P(A | И ак ee ——— Ki. aq 
| Support( А) Support_count( 4 ) 
式 中 ，Support_count (АПВ) 是 包含 项 集 ANB 的 事务 数 ; Support_count (А) 是 包含 项 集 A 的 事务 数 ， 根 据 该 公式 ， 尝 试 基于 该 例 产 生 关联 规则 。 


R 语 言 程序 输出 的 关联 规则 如 表 5-21 所 示 : 


Ж5-21 输出 的 关联 规则 


[e] =s la] 0.3 1. 428 5714 
a| L. 020 408 2 
с, el L. 428 5714 
就 第 一 条 输出 结果 进行 解释 : 客户 同时 点 菜品 a 和 b 的 概率 是 50%， 点 了 菜品 a ， 再 点 菜品 b 的 概率 是 71.428579%。 知 道 了 这 些 ， 就 可 以 对 顾客 进行 智能 推荐 ， 增 加 销量 同时 满足 客户 需求 。 


[1] Han] M, KamberM.Data Mining Concepts and Techniques [M] .北京 : 机 械 工业 出 版 社 ，2012: 247-254. 


54 时 序 模式 


就 餐饮 企业 而 言 ， 经 常会 碰 到 这 样 的 问题 


由 于 餐饮 行业 是 生产 和 销售 同时 进行 的 ， 因 此 销售 预测 对 于 餐饮 企业 十 分 必要 。 如 何 基于 菜品 历史 销售 数据 ， 做 好 餐饮 销售 预测 ”以便 减 少 菜品 脱销 现象 和 避免 因 备料 不 足 而 造成 的 生产 延误 ， 从 而 减 
少 菜品 生产 等 待 时 间 ， 提 供给 客户 更 优质 的 服务 ， 同 时 可 以 减少 安全 库 人 存量， 做 到 生产 准时 制 ， 降 低 物 流 成 本 。 


餐饮 销售 预测 可 以 看 作 是 基于 时 间 序 列 的 短期 数据 预测 ， 预 测 对 象 为 具体 菜品 销售 量 


常用 按时 间 顺 序 排列 的 一 组 随机 变量 X1，X2，…，Xt 来 表示 一 个 随机 事件 的 时 间 序 列 ， 简 记 为 ytj; 用 x1，x2，…，xn 或 {xt，t=1，2，…，} 表 示 该 随机 序列 的 n 个 有 序 观察 值 ， 称 之 为 序列 长 度 为 n 的 
观察 值 序列 。 


本 节 应 用 时 间 序 列 分 析 !1] 的 目的 就 是 给 定 一 个 已 被 观测 了 的 时 间 序 列 ， 预 测 该 序列 的 未 来 值 。 
5.4.1 ”时 间 序 列 算法 


常用 的 时 间 序 列 模型 如 表 5-22 所 示 。 


表 5-22 常用 时 间 序 列 模型 


异型 名 称 й Ж 


ЕВ АН РЕЗА ЕТ ЖИЙИ, АЕ K, ME А А АСЕЛ, ЗЕ ЕП А] БЕЗ Н ЦА], f# 
序列 平滑 化 。 根 据 所 用 平滑 技术 的 不 同 ， 可 具体 分 为 移动 平均 法 和 指数 平滑 法 


趋势 拟人 台 法 把 时 间作 为 目 变 量 ， 相 应 的 厅 列 观察 佳作 为 因 变 量 ， 建立 回归 模型 。 根 据 
序列 的 特征 ， 可 具体 分 为 蛮 性 拟 合 和 曲线 氢 合 


ATE 
ПЕ 法 


时 间 序 列 的 变化 主要 受到 长 期 趋势 (Т). pwa ($8)、 周 期 变动 (C) mas нууу 
= a (£) AWATAR HEN., RT 列 的 特点 л, [рЫ ЕЛЕДЕ КИНЕ ЕН 
全 模型 加 法 模型: а, =T, +5, +С, +e 


ОБУ ЫА, x, = T, хә x G, X e, 


ху = Фо + фух, + фәл, +" Фр р tE; 
AR 模型 КАНГ p BHRUJPF 38 х, 1, 2, +, X. RER., MOUE X, 的 取 值 % 为 因 杰 量 建立 
线性 回归 模型 
ee en ,te -EE 
МА 模型 随机 变量 X, 的 取 值 x, 与 以 前 各 期 的 序 : 列 值 无 关 ， 建立 与 前 9 期 的 随机 扰动 2,1, 
ei a e 的 线性 回归 模型 


' 一 


х, = фу + фи; Х| + фз, +: * афор — B, Ë=] — 0. ë, _; — ::: — 0 e, - 


ВНИХ, УНИН x, ИЧИР ЕАН, 还 与 前 9 期 的 随机 扰动 有 关 


ЕЕЗ АЕ ега А ЗРАД УИН Л, РА АЕРА АА ава РАІ 
对 差分 平稳 序列 可 以 使 用 ARIMA 模型 进行 拟 合 

ARCH 模型 能 准确 地 模拟 时 间 序 列 变量 的 被 动 性 变化 ， 适 用 于 序列 有 具有 异 方差 性 并 且 寞 
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ARMA 模型 


ARIMA 模型 


ARCH 模型 


CARCH 模型 及 其 CARCH 模型 称 为 广 久 ARCH 模型 ， 是 ARCH 模型 的 拓展 。 相 比 于 ARCH 模型 ，CARCH 
衍生 模型 模型 及 其 往生 术 型 更 能 反映 实际 序列 中 的 长 期 记忆 性 、 信 息 的 非 对 称 性 等 性 质 
本 节 将 重点 介绍 AR 模型 、MA 模 型 、ARMA 模 型 和 ARIMA 模 型 。 


5.4.2 ”时 间 序 列 的 预 处 理 


拿 到 一 个 观察 值 序列 后 ， 首 先 要 对 它 的 纯 随机 性 和 平稳 性 进行 检验 ， 这 两 个 重要 的 检验 称 为 序列 的 预 处 理 。 根 据 检验 结果 可 以 将 序列 分 为 不 同 的 类 型 ， 对 不 同类 型 的 序列 会 采取 不 同 的 分 析 方 法 。 
对 于 纯 随机 序列 ， 又 叫 白 噪 声 序列 ， 序 列 的 各 项 之 间 没 有 任何 相关 关系 ,序列 在 进行 完全 无 序 的 随机 波动 ， 可 以 终止 对 该 序列 的 分 析 。 白 噪声 序列 是 没有 信息 可 提取 的 平稳 序列 。 


对 于 平稳 非 白 噪声 序列 ， 它 的 均值 和 方差 是 常数 ， 现 已 有 一 套 非常 成 熟 的 平稳 序列 的 建 模 方法 。 通 常 是 建立 一 个 线性 模型 来 拟 合 该 序列 的 发 展 ， 借 此 提取 该 序列 的 有 用 信息 。ARMA 模 型 是 最 常用 的 平 
稳 序 列 拟 合 模型 。 


对 于 非 平稳 序列 ， 由 于 它 的 均值 和 方差 不 稳定 ， 处 理 方法 一 般 是 将 其 转变 为 平稳 序列 ， 这 样 就 可 以 应 用 有 关 平 稳 时 间 序列 的 分 析 方法 ， 如 建立 ARMA 模 型 进行 相应 的 研究 。 如 果 一 个 时 间 序 列 经 差分 运 
算 后 具有 平稳 性 ， 称 该 序列 为 差分 平稳 序列 ， 可 以 使 用 ARIMA 模 型 进行 分 析 。 


1. 平 稳 性 检验 


(1) 平稳 时 间 序 列 的 定义 


соу(Х, Ү) 
对 于 随机 变量 X， 可 以 计算 其 均值 (数学 期 望 ) h、 方 差 o; 对 于 两 个 随机 变量 X 和 Y， 可 以 计算 X，Y 的 协 方差 cov (X, Y) =E [ (Х-ну) (Ү-нү) 1 和 相关 系数 Pp (X，Y) = >or ， 它 们 度量 了 两 


个 不 同事 件 之 间 的 相互 影响 程度 。 


对 于 时 间 序 列 {Xt，tET}， 任 意 时 刻 的 序列 值 Xt 都 是 一 个 随机 变量 ， 每 一 个 随机 变量 都 会 有 均值 和 方差 ， 记 Xt 的 均值 为 nt， 方 差 为 ot; 任 取 t，sET， 定 义 序列 {Xt} 的 自 协 方差 水 数 y (t, s) =E [ (Xt- 
cov(X,, Х,) 


Mt) (Xs-Hs) ] 和 自 相关 系数 p (t, 5) = oo. (БЯ, y (t, t) =y (0) =1，po=1) ， 之 所 以 称 它 们 为 自 协 方差 玉 数 和 自 相 关系 数 ， 是 因为 它们 衡量 的 是 同一 个 事件 在 两 个 不 同时 期 (时 刻 t 和 
s) 之 间 的 相关 程度 ， 形 象 地 讲 就 是 度量 自己 过 去 的 行为 对 自己 现在 的 影响 。 


如 果 时 间 序 列 {Xt，tE 刀 在 某 一 常数 附近 波动 且 波 动 学 围 有 限 ， 即 有 常数 均值 和 常数 方差 ， 并 且 延 迟 k 期 的 序列 变量 的 自 协 方差 和 自 相 关系 数 是 相等 的 或 者 说 延迟 k 期 的 序列 变量 之 间 的 影响 程度 是 一 样 
的 ， 则 称 {Xt，tE 了 为 平稳 序列 。 


(2) 平稳 性 的 检验 


对 序列 平稳 性 的 检验 有 两 种 检验 方法 : 一 种 是 根据 时 序 图 和 自 相 关 图 的 特征 做 出 判断 的 图 检验 ， 该 方法 操作 简单 、 应 用 广泛 ， 缺 点 是 带 有 主观 性 ; 另 一 种 是 构造 检验 统计 量 进行 的 方法 ， 目 前 最 常用 的 
方法 是 单位 根 检验 。 


:时序 图 检验 : 根据 平稳 时 间 序列 的 均值 和 方差 都 为 常数 的 性 质 ， 平 稳 序列 的 时 序 图 显示 该 序列 值 始 终 在 一 个 常数 附近 随机 波动 ， 而 且 波 动 的 范围 有 界 ; 如 果 有 明显 的 趋势 性 或 者 周期 性 那 它 通常 不 是 


平稳 序列 。 
. 自 相关 图 检验 : 平稳 序列 具有 短期 相关 性 ， 这 个 性 质 表 明 对 平稳 序列 而 言 通常 只 有 近期 的 序列 值 对 现时 值 的 影响 比较 明显 ， 间 隔 越 远 的 过 去 值 对 现时 值 的 影响 越 小 。 随 着 延迟 期 数 K 的 增加 ， 平 稳 序列 


的 自 相 关系 数 ok (延迟 k 期 ) 会 比较 快 的 衰减 趋向 于 零 ， 并 在 零 附 近 随 机 波动 ， 而 非 平稳 序列 的 自 相关 系数 衰减 的 速度 比较 慢 ， 这 就 是 利用 自 相 关 图 进行 平稳 性 检验 的 标准 。 
* 单位 根 检验 : 单位 根 检 验 是 指 检验 序列 中 是 否 存在 单位 根 ， 因 为 存在 单位 根 就 是 非 平 稳 时 间 序 列 了 。 


2. 纯 随机 性 检验 
如 果 一 个 序列 是 纯 随机 序列 ， 那 么 它 的 序列 值 之 间 应 该 没有 任何 关系 ， 即 满足 Y (k) =0，k#0， 这 是 一 种 理论 上 才 会 出 现 的 理想 状态 ， 实 际 上 纯 随机 序列 的 样本 自 相 关系 数 不 会 绝对 为 零 ， 但 是 很 接近 


零 ， 并 在 零 附 近 随 机 波动 。 


纯 随机 性 检验 也 称 白 噪声 检验 ， 一 般 是 构造 检验 统计 量 来 检验 序列 的 纯 随 机 性 ， 常 用 的 检验 统计 量 有 Q 统 计量 、LB 统 计量 ， 由 样本 各 延迟 期 数 的 自 相关 系数 可 以 计算 得 到 检验 统计 量 ， 然 后 计算 出 对 应 


的 p 值 ， 如 果 p 值 显著 大 于 显著 性 水 平 k， 则 表示 该 序列 不 能 拒绝 纯 随机 的 原 假设 ， 可 以 停止 对 该 序列 的 分 析 。 


543 ”平稳 时 间 序 列 分 析 


ARMA 模 型 的 全 称 是 自 回归 移动 平均 模型 ， 它 是 目前 最 常用 的 拟 合 平稳 序列 的 模型 。 它 又 可 以 细 分 为 AR 模 型 、MA 模 型 和 ARMA 三 大 类 ， 都 可 以 看 作 是 多 元 线性 回归 模型 。 


1.AR 模 型 


具有 如 下 结构 的 模型 称 为 p 阶 自 回归 模型 ， 简 记 为 AR (р) : 


x, = po + фах +ф,х, + + Pr, +в, 


，xt-p 的 多 元 线性 回归 ， 认 为 xt 主 要 是 受过 去 p 期 序列 值 的 影响 。 误 差 项 是 当期 的 随机 干扰 st， 为 零 均 值 白 噪声 序列 。 


(5-37) 


即 在 t 时 刻 的 随机 变量 Xt 的 取 值 xt 是 前 p 期 Xt-1，Xt-2，.… 


平稳 AR 模 型 的 性 质 如 表 5-23 所 示 。 
表 5-23 平稳 AR 模 型 的 性 质 


统计 量 性 质 性 质 
均值 第 数 均 值 目 相 关系 数 (АСЕ) 拖 尾 


方差 常数 方差 偏 自 相关 系数 (PACF) p 阶 截 尾 


` 均值 : 对 满足 平稳 性 条 件 的 AR (р) 模型 的 方程 ， 两 边 取 期 望 ， 得 : 
E(x,) = E ( b, + b х, i PX, sss +T ф„Х,_, 


已 和 ME (xt) =н, E (et) =0, 所 以 有 h=$o+$1h+ 中 2H+…+ 中 ph。 


十 E) (5-38) 


解 得 : 


Po | 
二 (5-39 
H. 1 — $, - $, -= — $, ( ) 


. 方差 : 平稳 AR (p) 模型 的 方差 有 界 ， 等 于 常数 。 


соу(Х,, X,_,) 


OO 


. 自 相关 系数 (ACF) : 平稳 AR (p) 模型 的 自 相 关系 数 ok=@ (t, tk) = 呈 指 数 的 速度 衰减 ， 始 终 有 非 零 取 值 ， 不 会 在 k 大 于 某 个 常数 之 后 就 恒 等 于 零 ， 这 个 性 质 就 是 平稳 AR (p) 模型 的 自 
相关 系数 ou 具有 拖 尾 性 。 
. 偏 自 相 关系 数 (PACF) : 对 于 一 个 平稳 AR (p) 模型 ， 求 出 延迟 k 期 自 相 关系 数 ok 时 ， 实 际 上 得 到 的 并 不 是 又 ,与 Xi 之 间 单 纯 的 相关 关系 ， 因 为 X, 同 时 还 会 受到 中 间 K-1 个 随机 变量 X у, X. 2, сз, X. 


41 的 影响 ， 所 以 自 相关 系数 Ql 里 实际 上 掺 杂 了 其 他 变量 对 义 , 与 X, | 的 相关 影响 ， 为 了 单纯 地 测度 X, | 对 X, 的 影响 ， 引 进 偏 自 相关 系数 的 概念 。 
可 以 证 明 平 稳 AR (р) 模型 的 偏 自 相关 系数 具有 p 阶 截 尾 性 。 这 个 性 质 连 同 前 面 的 自 相 关系 数 的 拖 尾 性 是 AR (р) 模型 重要 的 识别 依据 。 


2.MA 模 型 


具有 如 下 结构 的 模型 称 为 q 阶 自 回归 模型 ， 简 记 为 MA (q) : 


(5-40) 


47 се H + £, ш PE B 0,&,-› кйш QE, 


即 在 t 时 刻 的 随机 变量 Xt 的 取 值 xt 是 前 q 期 的 随机 扰动 st-1，gst-2，…，gt-q 的 多 元 线性 函数 ， 误 差 项 是 当期 的 随机 干扰 st， 为 零 均 值 白 噪声 序列 ，H 是 序列 {Xt 的 均值 。 认 为 xt 主 要 是 受过 去 q 期 的 误差 项 的 


平稳 MA (q) 模型 的 性 质 如 表 5-24 所 示 。 
表 5-24 平稳 MA 模型 的 性 质 


统计 量 性 质 
均值 常数 均值 自 相关 系数 (АСЕ) q 阶 截 尾 
方差 偏 自 相关 系数 (РАСЕ) 拖 尾 


3.ARMA 模 型 
具有 如 下 结构 的 模型 称 为 自 回归 移动 平均 模型 ， 简 记 为 ARMA (р, д): 


和 (5-41) 


即 在 t 时 刻 的 随机 变量 Xt 的 取 值 xt 是 前 p 期 Xt-1，xt-2，…，xt-p 和 前 q 期 st-1，gst-2，…，gst-q 的 多 元 线性 国 数 ， 误 差 项 是 当期 的 随机 干扰 st， 为 零 均 值 白 噪声 序列 。 认 为 xt 主 要 是 受过 去 p 期 的 序列 值 和 过 去 
q 期 的 误差 项 的 共同 影响 。 


特别 地 ， 当 q=0 时 ， 是 AR (р) 模型 ; 当 p=0 时 ,是 MA (q) 模型 。 
平稳 ARMA (p, q) 的 性 质 如 表 5-25 所 示 。 


表 5-25 平稳 ARMA 模 型 的 性 质 
统计 量 性 质 性 质 
均值 Е 自 相关 系数 《ACF，) 拖 尾 
方差 TU Æ НАЖ (PACF) Ju Fë 


图 5-16 “平稳 时 间 序 列 ARMA 模 型 建 模 步骤 


4. 平 稳 时 间 序 列 建 模 


某 个 时 间 序 列 经 过 预 处 理 ， 被 判定 为 平稳 非 白 噪声 序列 ， 就 可 以 利用 ARMA 模 型 进行 建 模 。 计 算出 平稳 非 白 噪声 序列 {Xt} 的 自 相关 系数 和 偏 自 相关 系数 ， 再 由 AR (р) RÆ, MA (q) 和 
АКМА (р, q) 的 自 相关 系数 和 偏 自 相关 系数 的 性 质 ， 选 择 合适 的 模型 。 平 稳 时 间 序 列 建 模 步骤 如 图 5-16 所 示 。 


1) 计算 ACF 和 PACF: 先 计算 平稳 非 白 噪声 序列 的 自 相关 系数 (ACF) 和 偏 自 相关 系数 (PACF) 。 
2) ARMA 模 型 识别 : 也 叫 模型 定 阶 ， 由 AR (р) 模型 、MA (q) 和 ARMA (р, q) 的 自 相 关系 数 和 偏 自 相 关系 数 的 性 质 ， 选 择 合适 的 模型 。 识 别 的 原则 如 表 5-26 所 示 。 


表 5-26 ARMA 模 型 识别 原则 


模型 目 相 关系 数 (АСЕ) 偏 自 相关 系数 (PACF) 


AR(p) J Fë p ВТЕ 


MA(4) а MAE 拖 尾 
ARMA(p, 4) аг 


3) 估计 模型 中 未 知 参数 的 值 并 进行 参数 检验 。 
4) 模型 检验 。 
5) 模型 优化 。 


6) 模型 应 用 : 进行 短期 预测 。 


5.4.4 ” 非 平稳 时 间 序 列 分 析 


前 面 介绍 了 对 平稳 时 间 序 列 的 分 析 方 法 。 实 际 上 ， 在 自然 界 中 绝 大 部 分 序列 都 是 非 平稳 的 。 因 而 对 非 平稳 序列 的 分 析 更 普遍 、 更 重要 ,创造 出 来 的 分 析 方 法 也 更 多 。 
对 非 平稳 时 间 序 列 的 分 析 方 法 可 以 分 为 确定 性 因素 分 解 的 时 序 分 析 和 随机 时 序 分 析 两 大 类 .。 


确定 性 因素 分 解 的 方法 把 所 有 序列 的 变化 都 归结 为 四 个 因素 (长 期 趋势 、 季 节 变 动 、 循 环 变动 和 随机 波动 ) 的 综合 影响 ， 其 中 长 期 趋势 和 季节 变动 的 规律 性 信息 通常 比较 容易 提取 ， 而 由 随机 因素 导致 
的 波动 则 非常 难以 确定 和 分 析 ， 对 随机 信息 浪费 严重 ， 会 导致 模型 拟 合 精度 不 够 理想 。 


随机 时 序 分 析 法 的 发 展 就 是 为 了 弥补 确定 性 因素 分 解 方法 的 不 足 。 根 据 时 间 序 列 的 不 同 特点 ， 随 机 时 序 分 析 可 以 建立 的 模型 有 ARIMA 模 型 、 残 差 自 回归 模型 、 季 节 模 型 、 异 方差 模型 等 。 本 节 重 点 介绍 
ARIMA 模 型 对 非 平稳 时 间 序 列 进行 建 模 。 


1 .差分 运算 
. p 阶 差分 : 相距 一 期 的 两 个 序列 值 之 间 的 减法 运算 称 为 1 阶 差分 运算 。 


.天 步 差分 : 相距 k 期 的 两 个 序列 值 之 间 的 减法 运算 称 为 k 步 差分 运算 。 


锋 得 观察 值 厅 列 


拟 合 ARMA 模 型 


图 5-17 “差分 平稳 时 间 序 列 建 模 步 骤 
2.ARIMA 模 型 


差分 运算 具有 强大 的 确定 性 信息 提取 能 力 ， 许 多 非 平稳 序列 差分 后 会 显示 出 平稳 序列 的 性 质 ， 这 时 称 这 个 非 平稳 序列 为 差分 平稳 序列 。 对 差分 平稳 序列 可 以 使 用 ARMA 模 型 进行 拟 合 。ARIMA 模 型 的 实 
质 就 是 差分 运算 与 ARMA 模 型 的 组 合 ， 掌 握 了 ARMA 模 型 的 建 模 方法 和 步骤 以 后 ， 对 序列 建立 ARIMA 模 型 是 比较 简单 的 。 


差分 平稳 时 间 序 列 建 模 步骤 如 图 5-17 所 示 。 
下 面 应 用 以 上 的 理论 知识 ， 对 表 5-27 中 2015 年 1 月 1 日 到 2015 年 2 月 6 日 某 餐 厅 的 销售 数据 进行 建 模 。 


表 5-27 茶 餐 厅 的 销量 数据 


日 期 销售 额 /元 
2015-1-5 2015-1-17 3339 
2015-1-9 2859 3428 

(ар) 
w 


日 其 销售 额 /元 销售 额 /元 
2015-1-25 3614 4210 


* 数 据 详 见 : 示例 程序 /data/arima_data.csv 
(1) 检验 序列 的 平稳 性 


图 5-18 时 序 图 显示 该 序列 具有 明显 的 单调 递增 趋势 ， 可 以 判断 为 是 非 平稳 序列 ; 图 5-19 的 自 相 关 图 显示 自 相关 系数 长 期 大 于 零 ， 说 明 序 列 间 具 有 很 强 的 长 期 相关 性 ; 表 5-28 单 位 根 检验 统计 量 对 应 的 p 
值 显著 大 于 0.05， 最 终 将 该 序列 判断 为 非 平稳 序列 ( 非 平 稳 序列 一 定 不 是 白 噪 声 序列 ) 。 
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图 5-18 ”原始 序列 的 时 序 图 
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图 5-19 ”原始 序列 的 自 相 关 图 
表 5-28 原始 序列 的 单位 根 检验 


stat cValue p iË 


3. 6862 — 1. 9486 0. 9748 


(2) 对 原始 序列 进行 一 阶 差 分 ， 并 进行 平稳 性 和 白 噪声 检验 


` 对 一 阶 差 分 后 的 序列 再 次 做 平稳 性 判断 :; 过 程 同 第 一 次 的 检测 。 结 果 显 示 ， 一 阶 差分 之 后 序列 的 时 序 图 〈 见 图 5-20) 在 均值 附近 比较 平稳 的 波动 ， 自 相关 图 ( 见 图 5-21) 有 很 强 的 短期 相关 性 ， 单 位 根 
检验 ( 见 表 5-29) p 值 小 于 0.05， 所 以 一 阶 差 分 之 后 的 序列 是 平稳 序列 。 
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图 5-20 ”一 阶 差分 之 后 序列 的 时 序 图 
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图 5-21 一 阶 差 分 之 后 序列 的 自 相 关 图 
表 5-29 一 阶 差 分 之 后 序列 的 单位 根 检验 


T T 


= 2. 6532 — 1. 9489 0. 0169 


` 对 一 阶 差 分 后 的 序列 做 白 骂 声 检 验 ( 表 5-30) 。 
表 5-30 ”一 阶 差 分 之 后 序列 的 白 嗓 声 检验 
T T 
输出 的 p 值 为 0.0007， 所 以 一 阶 差 分 之 后 的 序列 是 平稳 非 白 噪声 序列 。 
(3) 对 一 阶 差分 之 后 的 平稳 非 白 噪声 序列 拟 合 ARMA 模 型 
` 模型 定 阶 : 模型 定 阶 就 是 确定 p 和 q。 


第 一 种 方法 : 人 为 识别 。 根 据 表 5-26ARMA 模 型 识别 原则 进行 模型 定 阶 。 
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в | Е. 
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图 5-22 ”一 阶 差分 后 序列 的 偏 自 相关 图 


一 阶 差分 后 自 相关 图 显示 出 1 阶 截 尾 ， 偏 自 相关 图 显示 出 拖 尾 性 ， 所 以 可 以 考虑 用 MA (1) 模型 拟 合 1 阶 差 分 后 的 序列 ， 即 对 原始 序列 建立 ARIMA (0, 1, 1) 模型 。 


第 二 种 方法 : 相对 最 优 模型 识别 。 
计算 ARMA (р, q) 当 p 和 q 均 小 于 等 于 5 的 所 有 组 合 的 BIC 信 息 量 ， 取 其 中 BIC 信 息 量 达到 最 小 的 模型 阶 数 。 


计算 完成 BIC 图 如 图 5-23 所 示 。 
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图 5-23 ”一 阶 差分 后 序列 的 BIC 图 


p 值 为 1、q 值 为 0 时 ，BIC 值 最 小 。p、q 定 阶 完成 ! 

用 AR (1) 模型 拟 合 一 阶 差 分 后 的 序列 ， 即 对 原始 序列 建 YARIMA (1, 1, 0) 模型 。 

虽然 两 种 方法 建立 的 模型 是 不 一 样 的 ， 但 是 可 以 检验 两 个 模型 均 通过 了 检验 。 实 际 上 ARIMA (1, 1, 1) 模型 也 是 通过 检验 的 ， 说 明 模 型 具有 非 唯一 性 。 

下 面 对 合 一 阶 差分 后 的 序列 拟 合 AR (1) 模型 进行 分 析 。 

` 模型 检验 : КАЛЫ Д], рій 270.627016. 

. 参数 检验 和 参数 估计 : 对 时 间 序 列 使 用 ARIMA (1, 1, 0) 模型 ， 那 就 意味 着 我 们 对 一 阶 时 间 序 列 使 用 了 ARMA (1, 0) 模型 。 估 计 的 参数 为 0.6353，AIC 值 为 417.68。 
(4) ARIMA 模 型 预测 


应 用 ARIMA (1, 1, 0) 对 表 5-27 中 2015 年 1 月 1 日 到 2015 年 2 月 6 日 某 餐 厅 的 销售 数据 做 为 期 5 天 的 预测 ， 结 果 如 下 : 


2015/2/7 2015/2/8 2015/279 2015/2/10 2015/27/11 
4856. 4 4881.4 4897. 3 4907. 4 4913. 8 


需要 说明 的 是 ， 利 用 模型 向 前 预测 的 时 期 越 长 ， 预 测 误差 将 会 越 来 越 大 ， 这 是 时 间 预 测 的 典型 特点 。 
在 R 语 言 中 实现 ARIMA 模 型 建 模 过 程 的 代码 如 代码 清单 5-6 所 示 。 


代码 清单 5-6 ”ARIMA 模 型 实现 代码 


setwd ("F: /数据 及 程序 /chapter5/ 示 例 程序 ") 

library (forecast) 

library (fUnitRoots) 

Data=read.csv ("./data/arima data.csv", header=T) [, 2] 
sales=ts (Data) 

plot.ts (sales,，xlab=" 时 间 "， ylab=" 销 量 / Z") 

# 单 位 根 检 验 
unitrootTest (sales) 
# 自 相关 图 
acf (sales) 

# 一 阶 差分 

difsales=diff (sales) 

plot.ts (difsales,，xlab=" 时 间 "， ylab=" 销 量 残 差 / д") 

# 自 相关 图 

acf (difsales) 

# 单 位 根 检 验 

unitrootTest (difsales) 

# 白 噪声 检验 

Box.test (difsales, type="Ljung-Box") 

# 偏 自 相 关 图 

pacf (difsales) 

#АВТМА (1, 1, 0) 模型 

arima=arima (sales, order=c (1, 1, 0) ) 

arima 

forecast=forecast.Arima (агіта, h=5, level=c (99.5) ) 
forecast 


* 代 码 详 见 : 示例 程序 /code/atrima_test.R 


运行 代码 清单 5-6 可 以 得 到 输出 结果 如 下 : 


># 单 位 根 检验 


> unitrootTest (sales) 


Title: 


Test Results: 
PARAMETER: 
Lag Order: 


1 


STATISTIC: 


P VALUE: 


Description: 


Tue Jun 23 16: 21: 


DP: 1.6708 


t: 0.9748 
n: 0.9745 


Augmented Dickey-Fuller Test 


01 2015 by user: 


> unitrootTest (difsales) 


Title: 


Augmented ріскеу-Е 


Test Results: 
PARAMETER: 
Lag Order: 


STATISTIC: 


P VALUE: 

сї 0.01689 
п: 0.2727 

Description: 


Tue Jun 23 16: 21: 01 2015 by user: 


># 白 wË Ж 验 


> Box .test (difsal 


ОЕ: -2.4226 


ез, 


Box-Ljung tes 
data: difsales 

X-squared = 11.30 
>#ARIMA (Т 


4, 


1, 0) 模型 


> arima=arima (sales, 


> arima 
Call: 
arima (x = sales, 
Coefficients: 
arl 
0.6353 
s.e.0.1236 


df = 1, 


uller Test 


hero 


hero 


type="Ljung-Box") 


p-val 


order=c (1, 1, 0) ) 


order = c (1, 


1, 0) ) 


ue = 0.0007734 


sigma^2 estimated as 5969: log likelihood = -207.84, aic = 419.68 


> forecast=foreca 
> forecast 
Point Forecast 


st.Arima (arima, 


Lo 


384856.386 4639.5 
394881.405 4465.6 
04897.299 4290.4 
14907.396 4122. 

24913.810 3964.9 


99.5Hi 99.5 


08 5073.263 
99 5297.112 
01 5504.198 
77 5692.315 
80 5862.639 


h=5, level=c (99.5) ) 


545 R 语 言 主要 时 序 模式 算法 函数 


R 语 言 实 实现 的 时 序 模式 算 


其 相关 的 函 


数 如 表 5-31 所 示 。 


法 主要 是 ARIMA 模 型 


函数 名 
acf( ) 
расі() 


unitroot Test( ) 


diff ) 


armasubsets ( ) 


arima() 


Вох. test() 
[orecasi( ) 
(1) acf 
- JAE: 
使 用 格式 : 


acf (Series, 


参数 Series 为 观测 值 序列 ，acf 为 观测 值 序列 自 相关 遂 数 ，lag.max 为 与 acf 对 应 的 最 大 延迟 ，type 为 计算 acf 的 形式 ， 默 认为 “correlation" 


(2) pacf 
` 功能 : 
“ 使 用 格式 : 


расЁ (Series ， 


计算 自 相 关系 数 ， 


lag.max=NULL, 


lag.max, plot, 


函数 功能 


， 在 使 用 该 模型 进行 


建 模 时 ， 需 


表 5-31 


计算 上 和 目 相 关系 数 ， 画 目 相 关系 数 图 
计算 偏 相关 系数 ， 画 偏 相 关系 数 图 
对 观测 值 序列 进行 单位 根 检 验 

对 观测 值 序列 进行 差分 计算 


[О 


设置 时 序 


hy 
ds 


na.action, 


画 自 相关 系数 图 。 


type=c ("correlation", 


计算 偏 相关 系数 ， 画 偏 自 相 关系 数 图 。 


输入 参数 与 输出 参数 的 含义 与 acf 函 数 类 似 。 


(3) unitrootTest 


模式 的 建 模 参数 ， 创 建 ARIMA Hjt 
转换 为 ARIMAX 模型 


检测 ARIMA 模型 是 否 和 
用 构建 的 时 序 模 : 


"covariance", 


та 
型 进行 预测 


"partial") , plot=TRUE, na.action=na.fail, 


时 序 模式 算法 函数 列表 


demean=TRUE, 


一 系列 判别 操作 ， 主 要 包含 平稳 性 检验 、 白 噪声 检验 、 是 否 差分 


E 阶 ， 确 定时 厅 模 式 的 建 模 参数 ,创建 回 归 时 厅 模 型 


、AlIC 和 和 BIC 指标 值 、 模 型 定 阶 ， 最 后 再 做 预测 。 与 


所 属 程序 包 
R 语言 通用 函数 
R 堵 言 通用 函数 
fUnitRoots 
КЕ ЛЈРА ЯХ 
TSA 


а И АА 


R 语言 通用 函数 


千言 通用 函数 


[orecast 


。 当 没有 输出 ， 即 为 acf (Series) 时 ， 画 观测 值 序列 的 自 相 


功能 : 对 观测 值 序列 进行 单位 根 检验 。 

* 使 用 格式 : 

unittootTest (Series, lags=1, type=c ("пс", "c", "ct") , title=NULL, description=NULL) 
输入 参数 Series 为 观测 值 序列 ，lags 为 用 于 校正 误差 项 的 最 大 滞后 项 ，type 为 单位 根 的 回归 类 型 ， 返 回 的 参数 p 值 ，p 值 小 于 0.05 表 示 满 足 单 位 根 检验 。 
(4) diff 

功能 : 对 观测 值 序列 进行 差分 计算 。 

* 使 用 格式 : 

diff (Series) 

输入 参数 series 为 观测 值 序列 ， 返 回 值 为 进行 一 次 差分 后 的 序列 。 

(5) armasubsets 

功能 : 模型 定 阶 ， 确定 时序 模式 的 建 模 参数 ， 创 建 回归 时 序 模型 。 

* 使 用 格式 : 
res=armasubsets (y，naf，nma，yname，atmethod="ols"，…) 


输入 参数 y 为 观测 值 序列 ，nar 为 AR (р) 模型 中 p 的 最 大 阶 数 ，nma 为 MA (9) 模型 中 q 的 最 大 阶 数 ，y.name 为 时 间 序 列 的 标签 ，ar.method 为 拟 合 ar () 模型 的 方法 ， 通 过 plot (res) 函数 来 绘制 
BIC 图 。 


(6) апта 

' 功能: 设置 时 序 模式 的 建 模 参 数 ， 创 建 ARIMA 时 序 模型 或 者 把 一 个 回归 时 序 模 型 转换 为 ARIMAX 模 型 。 
:使 用 格式 : 

айта (Series, order, seasonal, period, method, >) 

输入 参数 Series 为 观测 值 序列 ，order 为 构建 的 ARIMA (р, а, q) 模型 的 参数 ，seasonal 为 模型 的 季节 性 参数 ，period 为 观测 值 序列 的 周期 ，method 为 估计 模型 参数 所 使 用 的 方法 。 
(7) Box.test 

. 功能 : 检测 ARIMA 模 型 是 否 符 合 白 噪声 检验 。 

* 使 用 格式 : 

hBox.test (x, lag, type) 
输入 参数 x 为 待 检验 的 序列 ，lag 为 序列 之 后 向 type 为 白 噪声 检验 的 方法 。 

(8) forecast 

功能 : 应 用 构建 的 时 序 模型 进行 预测 。 

* 使 用 格式 : 
forecast.Arima (model, h, level) 
输入 参数 mode| 为 通过 arima () 函数 得 到 的 时 序 模型 ，h 为 指定 预测 的 个 数 ，leve 为 预测 数据 的 置信 水 平 。 


[1] 王 菩 .应 时 间 序 列 分 析 [М] .北京 : 中 国人 民 大 学 出 版 社 ，2012. 


5.5 ЕЛ) 


就 餐饮 企业 而 言 ， 经 常会 碰 到 这 样 的 问题 : 

1) 如 何 根据 客户 的 消费 记录 检测 是 否 为 异常 刷卡 消费 ? 
2) 如 何 检测 是 否 有 异常 订单 ? 

这 一 类 异常 问题 可 以 通过 离 群 点 检测 解决 。 


离 群 点 检测 是 数据 挖 扬中 重要 的 一 部 分 ， 它 的 任务 是 发 现 与 大 部 分 其 他 对 象 显著 不 同 的 对 象 。 大 部 分 数据 挖掘 方法 都 将 这 种 差异 信息 视 为 噪声 而 丢弃 ， 然 而 在 一 些 应 用 中 ， 罕 见 的 数据 可 能 蕴 合 着 更 大 
的 研究 价值 。 


在 数据 的 散布 图 中 ， 如 图 5-24 离 群 点 远离 其 他 数据 点 。 因 为 离 群 点 的 属性 值 明显 偏离 期 望 的 或 常见 的 属性 值 ， 所 以 离 群 点 检测 也 称 偏 差 检 测 。 


图 5-24 ”高 群 点 检测 示意 图 
离 群 点 检测 已 经 被 广泛 应 用 于 电信 和 信用 卡 的 诈骗 检测 、 贷 款 审批 、 电 子 商 务 、 网 络 入 侵 、 天 气 预报 等 领域 ， 如 可 以 利用 离 群 点 检测 分 析 运 动员 的 统计 数据 ， 以 发 现 异常 的 运动 员 。 
(1) 离 群 点 的 成 因 
离 群 点 的 主要 成 因 有 : 数据 来 源 于 不 同 的 类 、 自 然 变异 、 数 据 测 量 和 收集 误差 。 
(2) 离 群 点 的 类 型 
对 离 群 点 的 大 致 分 类 如 表 5-32 所 示 。 


表 5-32 ” 离 群 点 的 大 致 分 类 


从 整体 来 看 ， 茶 些 对 象 没有 离 群 特征 ,但 是 从 局 部 来 看 ， 
从 数据 范围 а Bs WE SA TIP) PD PS RE SA 却 显示 了 一 定 的 离 群 性 ， 如 图 5-25: C 是 全 局 离 群 点 ，D 是 局 


分 类 标准 分 类 名 称 分 类 描述 
从 数据 类 型 ”| 数值 型 离 群 点 和 分 类 型 离 群 点 这 是 以 数据 集 的 属性 类 型 进行 划分 的 
从 属性 的 个 数 | 一 维 离 群 点 和 多 维 离 群 点 一 个 对 象 可 能 有 一 个 或 多 个 属性 


(Ж) 


А 


图 5-25 ”全 局 离 群 点 和 局 部 离 群 点 
5.5.1 ” 离 群 点 检测 方法 


常用 离 群 点 检测 方法 [1 如 表 5-33 所 示 。 


表 5-33 常用 离 群 点 检测 方法 


群 点 检测 方法 方法 评 人 
大 部 分 基于 统计 的 离 群 点 检测 方法 是 构建 | ， 基 于 统计 模型 的 离 群 点 检测 方法 的 前 提 是 必 
基于 统计 | 一 个 概率 分 布 模型 ， 并 计算 对 象 符合 该 模型 | 须知 道 数据 集 服从 什么 分 布 ; 对 于 高 维 数据 ， 
的 概率 ， 把 具 asam А 群 点 | 检验 效果 可 能 很 关 


. TSA | | ! Aywa : —# п = И} F Es TA HY r zz . 


基于 邻近 度 i ра Z 大 数据 集 不 适用 ， 对 参 “ke Ха 
远离 天 部 т FIE ШАҺ Т, Fl = 
和 国 值 ， 不 能 处 理 具有 不 同 密度 区 域 的 数据 集 
考虑 能 同 密度 区 域 这 一 : мей ш 
че л у tm: 给 出 了 对 象 是 离 群 点 的 定量 度量 ， 并 且 即 使 
基于 密度 ы каен — s aen 数据 具有 不 同 的 区 域 也 能 够 很 好 的 处 理 ， 大 数 
密度 区 域 中 的 对 象 。 对 象 的 离 群 所 得 分 | 据 集 不 适用 ， 参 数 选 择 是 困难 的 
是 该 对 象 周围 密度 的 北 i жар 
-种 利用 聚 类 检测 离 群 点 的 方法 
Ns i ~- ач _ 基于 聚 类 技术 来 发 现 离 群 点 可 能 是 高 度 有 效 
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离 群 点 的 质量 影响 非常 大 
( 离 群 点 得 
基于 统计 模型 的 离 群 点 检测 方法 需要 满足 统计 学 原理 ， 如 果 分 布 已 知 ， 则 检验 可 能 非常 有 效 。 基 于 邻近 度 的 离 群 点 检测 方法 比 统计 学 方法 更 一 般 、 更 容易 使 用 ， 因 为 确定 数据 集 有 意义 的 邻近 度量 比 确 


定 它 的 统计 分 布 更 容易 。 基 于 密度 的 离 群 点 检测 与 基于 邻近 度 的 离 群 点 检测 密切 相关 ， 因 为 密度 常用 邻近 度 定义 : 一 种 是 定义 密度 为 到 K 个 最 邻近 的 平均 距离 的 倒数 ， 如 果 该 距离 小 ， 则 密度 高 ， 另 一 种 是 使 


用 DBSCAN 聚 类 算法 ， 一 个 对 象 周围 的 密度 等 于 该 对 象 指定 距离 d 内 对 象 的 个 数 。 


本 节 重 点 介绍 基于 统计 模型 和 聚 类 的 离 群 点 检测 方法 。 

5.52 ”基于 模型 的 离 群 点 检测 方法 
通过 估计 概率 分 布 的 参数 来 建立 一 个 数据 模型 ， 如 果 一 个 数据 对 象 不 能 很 好 地 跟 该 模型 拟 合 ， 即 如 果 它 很 可 能 不 服从 该 分 布 ， 则 它 是 一 个 离 群 点 。 
(1) 一 元 正 态 分 布 中 的 离 群 点 检测 


正 态 分 布 是 统计 学 中 最 常用 的 分 布 之 一 。 
1 Е (x =й )2 


若 随 机 变量 x 的 密度 函数 4 (х) = Ут. (xER) ， 则 称 x 服 从 正 态 分 布 ， 简 称 x 服 从 正 态 分 布 N (hu，c) ， 其 中 参数 u 和 o 分 别 为 均值 和 标准 差 。 


图 5-26 显 示 了 N (0, 1) 的 密度 函数 。 


—0.5 0 


5-26 N (0, 1) 的 概率 密 


N (0, 1) 的 数据 对 象 出 现在 该 分 布 的 两 边 尾部 的 机 会 很 小 ， 因 此 可 以 用 它 作为 检测 数据 对 象 是 否 是 离 群 点 的 基础 。 数 据 对 象 落 在 三 倍 标准 差 中 心 区 域 之 外 的 概率 仅 有 0.0027。 
(2) 混合 模型 的 离 群 点 检测 [9 
这 里 首先 介绍 混合 模型 。 混 合 是 一 种 特殊 的 统计 模型 ， 它 使 用 若干 统计 分 布 对 数据 建 模 。 每 一 个 分 布 对 应 一 个 艇 ， 而 每 个 分 布 的 参数 提供 对 应 簇 的 描述 ， 通 常用 中 心 和 发 散 描述 ，。 


混合 模型 将 数据 看 作 从 不 同 的 概率 分 布 得 到 的 观测 值 的 集合 。 概 率 分 布 可 以 是 任何 分 布 ， 但 是 通常 是 多 元 正 态 的 ， 因 为 这 种 类 型 的 分 布 不 难 理解 ， 容 易 从 数学 上 进行 处 理 ， 并 且 已 经 证 明 在 许多 情况 下 
都 能 产生 好 的 结果 。 这 种 类 型 的 分 布 可 以 对 椭圆 簇 建 模 。 


总 地 来 讲 ， 混 合 模型 数据 产生 过 程 为 : 给 定 几 个 类 型 相同 但 参数 不 同 的 分 布 ， 随 机 地 选取 一 个 分 布 并 由 它 产 生 一 个 对 象 。 重 复 该 过 程 m 次 ， 其 中 m 是 对 象 的 个 数 。 
具体 地 讲 ， 假 定 有 K 个 分 布 和 m 个 对 象 X={x1，x2，…，xm}j。 设 第 j 个 分 布 的 参数 为 oj， 并 设 A 是 所 有 参数 的 集合 ， 即 A={a1，c2，…，cag。 则 P (xla) 是 第 i 个 对 象 来 自 第 j 个 分 布 的 概率 。 选 取 第 j 个 分 


布 产生 一 个 对 象 的 概率 由 权 值 wj (1<j<K) 给 定 ， 其 中 权 值 (概率 ) 受 限于 其 和 为 1 的 约束 ， 即 信 ””'。 于 是 ， 对 象 x 的 概率 由 以 下 公式 给 出 : 


i 
Р(х |А) = У Р(х |0) (5-42) 
j=1 | | 
如 果 对 象 以 独立 的 方式 产生 ， 则 整个 对 象 集 的 概率 是 每 个 个 体 对 象 x 的 概率 的 乘积 ， 公 式 如 下 : 
т т K 
P(x |a) = [PG |a) = ЦПУ wP; |a) (5-43) 
[= | i=] j=] 


对 于 混合 模型 ， 每 个 分 布 描述 一 个 不 同 的 组 ， 即 一 个 不 同 的 篮 。 通 过 使 用 统计 方法 ， 可 以 由 数据 估计 这 些 分 布 的 参数 ， 从 而 描述 这 些 分 布 〈 簇 ) 。 也 可 以 识别 哪个 对 象 属于 哪个 能。 然而 ， 混 合 模型 只 
是 给 出 具体 对 象 属于 特定 簇 的 概率 。 


类 时 ， 混 合 模型 方法 假定 数据 来 自 混合 概率 分 布 ， 并 且 每 个 簇 可 以 用 这 些 分 布 之 一 识别 。 同 样 ， 对 于 离 群 点 检测 ， 数 据 用 两 个 分 布 的 混合 模型 建 模 ， 一 个 分 布 为 正常 数据 ， 而 另 一 个 为 离 群 点 。 


К 


聚 类 和 离 群 点 检测 的 目标 都 是 估计 分 布 的 参数 ， 以 最 大 化 数据 的 总 似 然 。 
这 里 提供 一 种 离 群 点 检测 常用 的 简单 方法 : 先 将 所 有 数据 对 象 放 入 正常 数据 集 ， 这 时 离 群 点 集 为 空 集 ; 再 用 一 个 迭代 过 程 将 数据 对 象 从 正常 数据 集 转 移 到 离 群 点 集 ， 只 要 该 转移 能 提高 数据 的 总 似 然 。 


具体 操作 如 下 : 


假设 数据 集 U 包 含 来 自 两 个 概率 分 布 的 数据 对 象 : M 是 大 多 数 (正常 ) 数据 对 象 的 分 布 ， 而 N 是 离 群 点 对 象 的 分 布 。 数 据 的 总 概率 分 布 可 以 记 作 : 


U (x) = (1-A) M (х) +АМ (х) 


式 中 ，x 是 一 个 数据 对 象 ; ЛЄ [0, 1] ， 给 出 离 群 点 的 期 望 比例 。 分 布 M 由 数据 估计 得 到 ， 而 分 布 N 通 常 取 均 匀 分 布 。 设 Mt 和 Nt 分 别 为 时 刻 t 正 常数 据 和 离 群 点 对 象 的 集合 。 初始 t=0，M0o=D， 而 No= 包 。 


根据 混合 模型 中 的 公式 P (x|A) =" “ 准 导 ， 在 整个 数据 集 的 似 然 和 对 数 似 然 可 分 别 由 下 面 两 式 给 出 : 


LO) = ПР) = (0-a) "l р) ) (a Др) (5-44) 


xel хе M. x; £ №, 
1,00) = |M, |ln(1 =A) + Y ҺР, (х) + |N 1А + Y InPy (x) (5-45) 
x; = М; x; = Ñ; 


式 中 ГА Рр. Pr. P $y JE D. М{, Ni 的 概率 分 布 函 数 。 


因为 正常 数据 对 象 的 数量 比 离 群 点 对 象 的 数量 大 很 多 ， 因 此 当 一 个 数据 对 象 移动 到 离 群 点 集 后 ， 正 常数 据 对 象 的 分 布 变化 不 大 。 在 这 种 情况 下 ， 每 个 正常 数据 对 象 的 正常 数据 对 象 的 总 似 然 的 贡献 保持 
不 变 。 此 外 ， 如 果 假 定 离 群 点 服从 均匀 分 布 ， 则 移动 到 离 群 点 集 的 每 一 个 数据 对 象 对 离 群 点 的 似 然 贡 献 是 一 个 固定 的 量 。 这 样 ， 当 一 个 数据 对 象 移动 到 离 群 点 集 时 ， 数 据 总 似 然 的 改变 粗略 地 等 于 该 数据 对 
象 在 均匀 分 布下 的 概率 (用 入 加权) 减 去 该 数据 对 象 在 正常 数据 点 分 布下 的 概率 (用 1- 入 加权) 。 从 而 ， 离 群 点 由 这 样 一 些 数据 对 象 组 成 ， 这 样 数据 对 象 在 均匀 分 布下 的 概率 比 正常 数据 对 象 分 布下 的 概率 


高 。 
在 某 些 情况 下 是 很 难 建立 模型 的 ， 如 因为 数据 的 统计 分 布 未 知 或 没有 训练 数据 可 用 。 人 在 这 种 情况 下 ， 可 以 考虑 另外 其 他 不 需要 建立 模型 的 检测 方法 。 
5.5.3 ”基于 聚 类 的 离 群 点 检测 方法 


聚 类 分 析 用 于 发 现 局 部 强 相 关 的 对 象 组 ， 而 异常 检测 用 来 发 现 不 与 其 他 对 象 强 相 关 的 对 象 。 因 此 ， 聚 类 分 析 非 常 自然 地 可 以 用 于 离 群 点 检测 。 本 节 主 要 介绍 两 种 基于 聚 类 的 离 群 点 检测 方法 。 


Q 


(1) лани ну 


{> 


5-27 K-Means 算 法 的 聚 类 图 
一 种 利用 聚 类 检测 离 群 点 的 方法 是 丢弃 远离 其 他 艇 的 小 艇 。 通 常 ， 该 过 程 可 以 简化 为 丢弃 小 于 某 个 最 小 阅 值 的 所 有 艇 。 


这 个 方法 可 以 和 其 他 任何 聚 类 技术 一 起 使 用 ， 但 是 需要 最 小 徐 大 小 和 小 艇 与 其 他 簇 之 间距 离 的 阐 值 。 而 且 这 种 方案 对 艇 个 数 的 选择 高 度 敏感 ， 使 用 这 个 方案 很 难 将 离 群 点 得 分 附加 到 对 象 上 。 


图 5-27 中 ， 聚 类 艇 数 K=2， 可 以 直观 地 看 出 其 中 一 个 包含 5 个 对 象 的 小 艇 远离 大 部 分 对 象 ， 可 以 视 为 离 群 点 。 
(2) 基于 原型 的 聚 类 


男 一 种 更 系统 的 方法 ， 首 先 聚 类 所 有 对 象 ， 然 后 评估 对 象 属于 簇 的 程度 ( 离 群 点 得 分 ) 。 在 这 种 方法 中 ， 可 以 用 对 象 到 它 的 簇 中 心 的 距离 来 度量 属于 艇 的 程度 。 特 别 地 ， 如 果 删 除 一 个 对 象 导致 该 目标 
的 显著 改进 ， 则 可 将 该 对 象 视 为 离 群 点 。 例 如 ， 在 K 均 值 算法 中 ， 删 除 远 离 其 相关 簇 中 心 的 对 象 能 够 显著 地 改进 该 艇 的 误差 平方 入 (SSE) 。 


对 于 基于 原型 的 聚 类 ， 评 估 对 象 属于 艇 的 程度 ( 离 群 点 得 分 ) 主要 有 两 种 方法 : 一 是 度量 对 象 到 艇 原型 的 距离 ， 并 用 它 作为 该 对 象 的 离 群 点 得 分 ; 二 是 考虑 到 艇 具有 不 同 的 密度 ， 可 以 度量 艇 到 原型 的 
相对 距离 ， 相 对 距离 是 点 到 质心 的 距离 与 复 中 所 有 点 到 质心 距离 的 中 位 数 之 比 。 


ике 


图 5-28 ”基于 距离 的 离 群 点 检测 


如 图 5-28 所 示 ， 如 果 选 择 聚 类 复数 K=3， 则 对 象 A、B、 (人 应 分 别 属 于 距离 它们 最 近 的 复 ， 但 相对 于 复 内 的 其 他 对 象 ， 这 三 个 点 又 分 别 远离 各 自 的 笠 ， 所 以 有 理由 怀疑 对 象 A、B、( 人 是 离 群 点 。 
诊断 步骤 如 下 


1) 进行 聚 类 。 选 择 聚 类 算法 (如 K-Means 算 法 ) ， 将 样本 集聚 为 K 艇 ,并 找到 各 簇 的 质心 。 
2) 计算 各 对 象 到 它 的 最 近 质 心 的 距离 。 
3) 计算 各 对 象 到 它 的 最 近 质 心 的 相对 距离 。 


4) 与 给 定 的 辣 值 作 比 较 。 


基于 聚 类 的 离 群 点 检测 的 改进 如 下 : 
1) 离 群 点 对 初始 聚 类 的 影响 : 通过 聚 类 检测 离 群 点 时 ， 离 群 点 会 影响 聚 类 结果 。 为 了 处 理 该 问题 ， 可 以 使 用 如 下 方法 : 对 象 聚 类 ， 删 除 离 群 点 ， 对 象 再 次 聚 类 (这 个 不 能 保证 产生 最 优 结果 ) 。 


2) 还 有 一 种 更 复杂 的 方法 : 取 一 组 不 能 很 好 地 拟 合 任何 复 的 特殊 对 象 ， 这 组 对 象 代表 潜在 的 离 群 点 。 随 着 聚 类 过 程 的 进展 ， 复 在 变化 。 不 再 强 属于 任何 簇 的 对 象 被 添加 到 潜在 的 离 群 点 集合 ;而 当前 在 
该 集合 中 的 对 象 被 测试 ， 如 果 它 现在 强 属于 一 个 笠 ， 就 可 以 将 它 从 潜在 的 离 群 点 集合 中 移 除 。 聚 类 过 程 结束 时 还 留 在 该 集合 中 的 点 被 分 类 为 离 群 点 (这 种 方法 也 不 能 保证 产生 最 优 解 ， 甚 至 不 比 前 面 的 简单 
算法 好 ， 在 使 用 相对 距离 计算 离 群 点 得 分 时 ， 这 个 问题 特别 严重 ) 。 


对 象 是 否 被 认为 是 离 群 点 可 能 依赖 于 篮 的 个 数 (如 K 很 大 时 的 噪声 艇 ) 。 该 问题 也 没有 简单 的 答案 。 一 种 策略 是 对 于 不 同 的 簇 个 数 重复 该 分 析 ; 另 一 种 方法 是 找 出 大 量 小 艇 ,其 想法 是 : 


1) 较 小 的 簇 倾向 于 更 加 凝聚 ; 


2) 如 果 存 在 大 量 小 簇 时 一 个 对 象 是 离 群 点 ， 则 它 多 半 是 一 个 真正 的 离 群 点 。 

不 利 的 一 面 是 一 组 离 群 点 可 能 形成 小 篮 从 而 逃避 检测 。 

利用 表 5-15 的 数据 进行 聚 类 分 析 ， 并 计算 各 个 样本 到 各 自 聚 类 中 心 的 距离 ， 分 析 离 群 样本 。 其 R 语 言 代 码 如 代码 清单 5-7 所 示 。 
代码 清单 5-7 ”离散 点 检测 


## 设 置 工作 空间 

# 把 “数据 及 程序 ”文件 夹 复制 到 F 盘 下 ， 再 用 Setwd 设 置 工作 空间 

setwd ("F: /数据 及 程序 /chapter5/ 示 例 程序 ") 

# 读 入 数据 

Data=read.csv ("./data/consumption data.csv", header=T) [, 2: 4] 
Data=scale (Data) 

set.seed (12) 

km=kmeans (Data, center=3) 


print (km) 

km$centers 

# 各 样本 欧 色 距离 

xl=matrix (km$centers [1, ] ， nrow = 940, ncol =3 , byrow = Т) 
julil=sqrt (rowSums ( (Data-x1) ^2) ) 

x2=matrix (km$centers [2, |, nrow = 940, ncol =3 , byrow = Т) 
juli2=sqrt (rowSums ( (Data-x2) ^2) ) 

x3=matrix (km$centers [3, |, nrow = 940, ncol =3 , byrow = Т) 
juli3=sqrt (rowSums ( (Data-x3) ^2) ) 

dist=data.frame (julil, juli2, juli3) 


HEKKIES pE 
y=apply (dist, 1, min) 

plot (1: 940, y, xlim=c (0, 940) , хіар="#ж,5", ylab" KKI A") 
points (which (y>2.5) , y [which (у>2.5) |, pch=19, col="red") 


# 代 码 详 见 : 示例 程序 /code/discrete_point_test.R 


运行 上 面 的 代码 可 以 得 到 如 图 5-29 所 示 的 距离 误差 图 。 
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图 5-29 ”离散 点 检测 距离 误差 图 


分 析 图 5-29 可 以 得 到 ， 如 果 距 离 阔 值 设置 为 2.5， 那 么 所 给 的 数据 中 有 9 个 离散 点 ， 在 聚 类 时 这 些 数 据 应 该 剔除 。 


1] Tan P N, Steinbach M, Kumar V.Introdution to Data Mining [M] .北京 : 人 民 邮 电 出 版 社 ，2010: 404-415. 


[2] Тап P N, Steinbach M, Kumar V.Introdution to Data Mining [M] .北京 : 人 民 邮 电 出 版 社 ，2010: 404-415. 
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本 章 主要 根据 数据 挖掘 的 应 用 分 类 ， 重 点 介绍 了 对 应 的 数据 挖掘 建 模 方法 及 实现 过 程 。 通 过 对 本 章 的 学 习 ， 可 在 以 后 的 数据 挖掘 过 程 中 采用 适当 的 算法 并 按 所 陈述 的 步骤 实现 综合 应 用 ， 更 希望 本 章 能 
给 读者 一 些 启发 ， 思 考 如 何 改进 或 创造 更 好 的 挖掘 算法 。 


归纳 起 来 ， 数 据 挖 掘 技 术 的 基本 任务 主要 体现 在 分 类 与 预测 、 聚 类 分 析 、 天 联 规则 、 时 序 模式 、 离 群 点 检测 五 个 方面 。5.1 节 主要 介绍 了 决策 树 和 人 工 神经 网 络 两 个 分 类 模型 、 回 归 分 析 预 测 模型 及 其 实 
现 过 程 ; 5.2 节 主要 介绍 了 K-Means 聚 类 算法 ， 建 立 分 类 方法 按照 接近 程度 对 观测 对 象 给 出 合理 的 分 类 并 解释 类 与 类 之 间 的 区 别 ;，5.3 节 主要 介绍 了 Apriori 算 法 ， 以 在 一 个 数据 集中 找 出 各 项 之 间 的 关系 ; 5.4 
节 从 序列 的 平稳 性 和 非 平稳 性 出 发 ， 对 平稳 时 间 序 列 主 要 介绍 了 ARMA 模 型 ， 对 差分 平稳 序列 建立 了 ARIMA 模 型 ， 应 用 这 两 个 模型 对 相应 的 时 间 序 列 进行 研究 ， 找 寻 变 化 发 展 的 规律 ， 预 测 将 来 的 走势 ; 
5.5 节 主要 介绍 了 基于 模型 和 离 群 点 的 检测 方法 ， 是 发 现 与 大 部 分 其 他 对 象 显 著 不 同 的 对 象 。 


前 5 章 是 数据 挖掘 必 备 的 原理 知识 ， 并 为 本 书后 面 章节 的 案例 理解 和 实验 操作 黄 定 了 理论 基础 。 


中 
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ЕН 


о 第 6 章 8,72) £ EA P” А AIRA 


ЖТ ”航空 公司 客户 价值 分 析 

. 第 8 章 ”中 医 证 型 关联 规则 挖掘 

. 第 9 章 ”基于 水 色 图 像 的 水 质 评价 

` 第 10 章 ”家 用 电器 用 户 行为 分 析 与 事件 识别 

` 第 11 章 应 用 系统 负载 分 析 与 磁盘 容量 预测 

* 第 12 章 ”电子 商务 智能 推荐 服务 

. 第 13 章 ”基于 数据 挖掘 技术 的 市 财政 收入 分 析 预 测 模型 
. 第 14 章 ”基于 基站 定位 数据 的 商 圈 分 析 


о 第 15 章 ” 电 商 产品 评论 数据 情感 分 析 
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传统 的 防 窃 漏 电 方法 主要 通过 定期 巡 检 、 定 期 校 验 电表 、 用 户 举报 窃 电 等 手段 来 发 现 窃 电 或 计量 装置 故障 。 但 这 种 方法 对 人 的 依赖 性 太 强 ， 抓 窃 查 漏 的 目标 不 明确 。 目 前 ， 很 多 供电 局 主要 通过 营销 稿 
查 人 员 、 用 电 检 查 人 员 和 计量 工作 人 员 利 用 计量 异常 报警 功能 和 电能 量 数据 查询 功能 开展 用 户 用 电 情 况 的 在 线 监 控 工 作 ， 通 过 采集 电量 异常 、 负 和 荷 异 常 、 终 羡 报 和 警 、 主 站 报警 、 线 损 异常 等 信息 ， 建 立 数据 
分 析 模 型 ， 来 实时 监测 穷 漏电 情况 和 发 现 计 量 装 置 的 故障 。 根 据 报警 事件 发 生前 后 客户 计量 点 有 关 的 电流 、 电 压 、 负 荷 数据 情况 等 ， 构 建 基 于 指标 加 权 的 用 电 异 常 分 析 模 型 ， 实 现 检查 客户 是 否 存在 窃 电 、 
违章 用 电 及 计量 装置 故障 等 


以 上 防 窃 漏电 的 诊断 方法 ， 虽 然 能 获得 用 电 异 常 的 某 些 信息 ， 但 由 于 终端 误 报 或 漏 报 过 多 ， 无 法 达到 真正 快速 精确 定位 大 漏 电 嫌疑 用 户 的 目的 ， 往 往 令 稿 查 工作 人 员 无 所 适 从 。 而 且 在 采用 这 种 方法 建 
模 时 ， 模 型 各 输入 指标 权重 的 确定 需要 用 专家 的 知识 和 经 验 ， 具 有 很 大 的 主观 性 ， 存 在 明显 的 缺陷 ， 所 以 实施 效果 往往 不 尽 如 人 意 。 


现 有 的 电力 计量 自动 化 系统 能 够 采集 到 各 相 电 流 、 电 压 、 功 率 因数 等 用 电 负 荷 数据 以 及 用 电 异 常 等 终端 报 蜀 信 息 。 异 常 告警 信息 和 用 电 负 荷 数据 能 够 反映 用 户 的 用 电 情况 ， 同 时 移 查 工作 人 员 也 会 通过 
在 线 稽 查 系 统 和 现场 移 查 来 查找 出 窃 漏 电 用 户 ， 并 录入 系统 。 若 能 通过 这 些 数 据 信 息 提取 出 窃 漏电 用 户 的 关键 特征 ， 构 建 窃 漏电 用 户 的 识别 模型 ， 就 能 自动 检查 判断 用 户 是 否 存在 窃 漏电 行为 。 


表 6-1 企业 大 用 户 用 电 负荷 数据 


本 电流 | 电流 | 电流 | 电压 | 电压 | 电压 ара 功率 27 
0319001000019011001 |2011/11/10 | 202 | | 33.4 | 10500 | 0. 996 
| 29.6 | 
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031900100001901 1001 |2011/11/10 3:30 303. эз o fo из» f o fem оли Гозо fE ‚ 996 
0319001000019011001 |2011/11/10 4:45 бю DEFI PEIE Тео б аво Готи 75 0. 573 0. 996 
0319001000019011001 |2011/11/10 5:15 | 1768 | 0 |322 | 294 | o | 30.8 | 10500 | o | 10500 | 0.789 | 0.573 | -10000| 0.996 
0319001000019011001 |2011/11/10 6: 15 0. 996 
0319001000019011001 |2011/11/10 6: 45 0. 996 
0319001000019011001 |2011/11/10 7:45 | 227.6 | 0 | 403.6 | 382 | о | 38.6 | 10400 | o | 10500 | 0.786 | 0.573 | -10000| 0.996 


表 6-1 给 出 了 某 企业 大 用 户 的 用 电 负 和 蓓 数据 ， 采 集 时 间 间 隔 为 15 分 钟 ， 即 0.25 小 时 ， 可 进一步 计算 该 大 用 户 的 用 电量 。 表 6-2 给 出 了 该 企业 大 用 户 的 终端 报警 数据 ， 其 中 与 穷 漏电 相关 的 报警 能 较 好 地 识 
别 用 户 的 窃 漏电 行为 。 表 6-3 给 出 了 某 企 业 大 用 户 违约 、 窃 电 处 理 通知 书 ， 里 面 记 录 了 用 户 的 用 电 类 别 和 窃 电 时 间 。 
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ШЕЕ FERID EZE 
ТЕЧЕ УТРЕ: 
АЕХА ЕГ 

某 企 业 大 用 户 ҮШҮҮ 
菜 企业 大 用 С 相 电 流 过 负 痊 
菜 企业 大 用 户 ЕЕ" 

САККА ЯШЕ 
E rip ABI" A ii tat ft 
某 企 业 大 用 C 电流 过 负荷 


* 由 于 各 方面 原因 ， 终 端 报警 存在 一 定 误 报 和 漏 报 情 况 


#65 菜 企 业 大 用 户 违约 、 窃 电 处 理 通 知 书 


НРА 革 企 业 大 用 户 ч AEE 7210100429 


信息 | 计量 方式 |, | 电流 互感 器 变 比 | 100и 电压 互感 器 变 比 | lOkV/l00V 


1515КУА 


我 局 用 电 检 查 人 员 根 据 : J 2014 #E 11 H 17 日 到 你 户 进行 用 电 检 查 ， 发 现 你 户 〈 客 户 编号 

现 7210100429) 配 电 变压器 (3 £; Е N 400kKVA 和 1 人 台 容 量 为 315kVA) 的 商 压 计量 柜 的 前 门 封印 

场 си 被 人 为 破坏 ， 计 费 电能 表 (МО. 01026660; 条形码 NO: SFF5104000864) 的 计量 接线 盒 

情 C #HrB ГЕЈЕ е, H НЕ ВЕ т С 相 电流 为 0， 现场 检测 计 rara С 相同 时 和 失 压 和 失 流 ， 导 

U анх р 即时 报 当 ] 也 公安 机 关 并 拍照 权证， 现场 对 你 户 作 停电 处 理 。 当 时 计 费 电能 表 抄 见 有 功 目 码 
3y 16 448. 77 


HE | WAKE PEH а A HRE И ЖЕ BL Ay E sk K aN 


行为 
确定 依据 : 计量 自动 化 系统 记录 {2014 年 11 月 12 日 计 费 电能 表 存 在 失 压 失 流 记录 ， 直 至 2014 年 11 月 
17 日 CC 相 电 压 和 电流 数值 均 为 0)。 
SE: ААИ ВА] 2014 +11 H 12 Н 2014 +11 H 17H, 共 6 天 。 
Н А ЕТА, ПЕС 相 失 压 失 流 ， 依 据 计量 自动 化 系统 召 测 数据 分 析 ， 你 户 计 
费 电能 表 (NO: 01026660; 2&JÉPD NO: SFF5104000864 ) 的 2014 年 11 月 12 H 功率 因数 : COS(30° + 中 ) 
计 =0.572, Ё) ф = 25.11°, СО5ф =0.905。 更 正 系数 =P 正确 WP 错误 = ШСО5ф/[ UICOS( b + 30°) J = 
算 | 1.732 х0. 905/0. 572 =2.74， 更 正 率 = 更 正 系数 -1 =2.74 一 1 =1.74。2014 年 11 月 12 日 计 费 电能 表 记 录 
jP | 有 功 止 码 为 16431.45， 查 处 现场 计 费 电能 表 抄 见 有 功 止 码 为 16 和 8.77， 电 流 互感 器 变 比 为 10075， 电 压 


法 下 感 器 变 比 为 100007100。 根 据 《供电 音 业 规则 》 第 一 百 零 二 条 规定 ， 窃 电 者 应 按 所 塞 电量 补 交 电费 ， 并 
x 承担 补 交 电费 三 倍 的 违约 使 用 电费 。 有 具体 计算 如 下 : 

l) 计 费 电能 表 已 计 收 电量 = ( 16 448.77 – 16 431. 45) x 100/5 x 10 000/100 =34 640( kW + h) 

2) 窃 电 电 量 = 已 计 收 电量 x 更 正 率 =34640 x1. 74 =60274( kW -+ h) 

3) ШШ =60 274 х0. 6709 =40437.83【 元 ) 

4) 城市 建设 附加 费 =60274 x0.014 =843. 84 (元) 

5) 违约 使 用 电费 =40 437. 83 x3 =121 313.46 【元 ) 

6) 合计 人 金额 =40 437. 83 +843. 84 +121 313. 46 =162 595.13 (76) 


合计 电费 ，162 595. 13 元 Ма: ЗВАЛ ИЕНА ШИЛ 78 2 


本 次 数据 挖掘 建 模 目标 如 下 : 
1) 归纳 出 窃 漏 电 用 户 的 关键 特征 ， 构 建 窃 调 电 用 户 的 识别 模型 ， 


2) 利用 实时 监测 数据 ， 调 用 窃 漏电 用 户 识别 模型 实现 实时 诊断 。 
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分 析 模 型 ， 


传统 的 防 窃 漏 电 方法 主要 通过 定期 巡 检 、 定 期 校 验 电 表 、 用 户 举报 窃 电 等 手段 来 发 现 窃 电 或 计量 装置 故障 。 但 这 种 方法 对 人 的 依赖 性 大 强 ， 抓 窃 查 漏 的 目标 不 明确 。 目 前 ， 很 多 供电 局 主要 通过 营销 稿 
查 人 员 、 用 电 检 查 人 员 和 计量 工作 人 员 利 用 计量 
来 实时 监测 窃 漏 电 情 况 和 发 现 计量 装置 的 故障 。 根 据 报警 事件 发 生前 后 客户 计量 点 有 关 的 电流 、 
违章 用 电 及 计量 装置 故障 等 


以 上 防 窃 漏电 的 诊断 方法 ， 虽然 能 获得 用 电 异 常 的 某 些 信息 ， 
模 时 ， 模 型 各 输入 指标 权重 的 确定 


现 有 的 电力 计量 自动 化 系统 能 够 采集 
在 线 稽 查 系 统 和 现场 移 查 来 查找 出 窃 漏 电 用 户 ， 并 录入 系统 。 


APRS 


031900100001901 1001 
031900100001901 L00] 
031900100001901 1001 
031900100001901 100 
031900100001901 1001 
031900100001901 1001 
031900100001901 1001 
031900100001901 1001 
031900100001901 1001 
031900100001901 1001 
031900100001901 1001 
031900100001901 1001 
031900100001901 1001 
03190010000 19011001 
03190010000 19011001 
03190010000 19011001 
031900100001901 1001 
031900100001901 1001 
031900100001901 1001 
031900100001901 1001 
031900100001901 1001 
031900100001901 1001 
031900100001901 1001 
031900100001901 1001 
031900100001901 1001 
031900100001901 1001 
031900100001901 1001 
031900100001901 1001 
031900100001901 1001 
031900100001901 1001 
031900100001901 1001 
031900100001901 1001 


异常 报警 功能 和 电能 量 数 据 查询 功能 开展 用 户 用 电 情况 的 在 线 监控 工作 ， 通 过 采集 电量 异常 、 负 荷 异 常 、 终 端 报 警 、 主 站 报警 、 线 损 


电压 、 负 和 荷 数据 情况 等 ， 构 建 基于 指标 加 权 的 用 电 异 常 分 析 模 型 ， 


但 由 于 终端 误 报 或 漏 报 过 多 ， 


需要 用 专家 的 知识 和 经 验 ， 具 有 很 大 的 主观 性 ， 存 在 明显 的 缺陷 ， 所 以 实施 效果 往往 不 尽 如 人 意 。 


表 6-1 企业 大 用 户 用 电 负荷 数据 


电流 | 电流 | 电流 | 电压 | 电压 | 电压 тт 功率 | 功率 


2011/11/10 | 


Е | 349.2 | | 33.4 | 10500 | 
CORDE r ss mi s: lam C С 
anuma] 20а | o [oe [з | o | [oso 9 | 10500 | 0.784 | 0.573 | 10000 
2011711710 0:45 | 199.6 | 0 [owa | 32 | o |se [ios | o [поз | 0.793 | 0.373 | —10000 
2011711710 00 | 5912 | o |se [эв | o |32 [ios] o | 10500 | 0.785 | 0.373 | 10000 
2011111015 | 2-4 | o [303 | 3 | o [эв [1090 | o [поз | 0.786 | 0.573 | —10000 
2011711/102:15 | 3-2 | o [one | 285 | o |28 [тозо | o | 10500 | 0.788 | 0.373 | 10000 
2011711710 230 | 1852 | o [3324 [экв | o | ara [1090 | o | 10500 | 0.787 | 0.573 | 10000 
2011711710 zas | m5.6 | o [3262 | 2.2 | o |312 [тоз | o | 10500 | 0.991 | 0.573 | —10000 
2011711103: 15 || iss | o [oa | 32 | o | эз [ою | o | 10500 | 0.782 | 0.573 | 10000 
2011711710 3:45 |192 | o [320 |в | o | 36.6 [ios | o | 10500 | 0.787 [0.373 | —10000 
anumas | 6 | o [oa [so | o [эз [оо | o [поз | 288 | 0.372 | 10000 
2011711710 4:30 | 132 | o [oise [жк | o [o [оя | o | 10500 | 0.788 | 0.573 | 10000 
2011110 3:00 | 1708 | o | 3032 | жа | o [29 [ою o | 10500 | 0.786 | 0.573 | 10000 
2011110 3:15 ев | o [322 |а | o [| sos [оя | o | 10500 | 0.789 | 0.573 | 10000 
2011711710 3:30 |1796 | o [cor 292 | o |28 [тою 0 | 10500 | 0.783 | 0.373 | 10000 
2011110 iea | 0 [299 | 226 | o |26 [1040 | o | 10500 | 0.789 [0.373 | 10000 
oro вка | 0 [эз [ж | o | 3622 [оя 0 | 10500 | 0.792 [0.373 | 10000 
2011110 6:15 166 | o |24 | 28 | o | 222 [лоо | o | 10500 | 0.783 [0.373 | 10000 
2011110 6:30 | 14 | 0 |27 [эв | o |24 [1040 0 | 10500 | 0.788 [0.373 | 10000 
2011110645 | i2 | o [3346 | sre | o | [ош | o | 10500 | 0.787 | 0.373 | 10000 
2017171070198 | o [3158 | 302 | o | 362 [оо | 0 | 10500 | 0.785 [0.372 | 10000 
2011117107: 15 166 | o [29 [эв | o [28 [юш | o | 10400 | 0.785 [0.373 | 10000 
2011111045 | 2-6 | o Газе [за | o [386 [лоо | o | 10500 | 0.786 | 0.373 | 10000 


ч 


2011711710 0: 15 


ыы Ee 


шы 


2011 


表 6-1 给 出 了 某 企业 大 用 户 的 用 电 负 和 蓓 数据 ， 采 集 时 间 间 隔 为 15 分 钟 ， 即 0.25 小 时 ， 可 进一步 计算 该 大 用 户 的 用 电量 。 表 6-2 给 出 了 该 企业 大 用 户 的 终端 报警 数据 ， 其 中 与 穷 漏电 相关 的 报警 能 较 好 地 识 
别 用 户 的 窃 漏 电 行为 。 表 6-3 给 出 了 某 企 业 大 用 户 违约 、 窃 电 处理 通 知 书 ， 里 面 记录 了 用 户 的 用 电 类 别 和 窃 电 时 间 。 
表 6-2 某 企 业 大 用 户 终端 报警 信息 
用 户 名 称 计量 点 ID 
某 企 业 大 用 户 2010/4/1 0:01 0319001000045110001 
某 企业 大 用 户 2010/4/2 18: 44 0319001000045110001 
某 企业 大 用 户 2010/4/2 18:47 0319001000045110001 
某 企业 大 用 户 2010/4/2 18:47 0319001000045110001 
某 企业 大 用 户 2010/4/2 21: 07 0319001000045110001 
某 企业 大 用 户 2010/4/2 21:22 0319001000045110001 
某 企业 大 用 户 2010/4/2 21: 25 0319001000045110001 
某 企业 大 用 户 2010/4/3 5:45 0319001000045110001 
# 由 于 各 方面 原因 ， 终 端 报警 存在 一 定 误 报 和 漏 报 情 况 


#65 某 企 业 大 用 户 违约 、 窃 电 处 理 通知 书 


报警 名 称 
最 大 需 量 复 去 
电流 不 平衡 
А 相 电 流 过 负荷 
C 相 电 流 过 仙人 向 
电流 不 平衡 
C HHE ЛЛ ЇЙЇ u 
А HHB ЭЧ f {ш 
С HE ML Tl TA af 


0. 


2е|ејеејојә 


异常 等 信息 ， 建 立 数据 


实现 检查 客户 是 否 存 在 窃 电 、 


无 法 达到 真正 快速 精确 定位 窃 漏电 嫌疑 用 户 的 目的 ， 往 往 令 稽查 工作 人 员 无 所 适 从 。 而 且 在 采用 这 种 方法 建 


到 各 相 电 流 、 电 压 、 功 率 因 数 等 用 电 负 和 荷 数 据 以 及 用 电 异 常 等 终端 报 向 信 息 。 异 常 告警 信息 和 用 电 负 和 荷 数据 能 够 反映 用 户 的 用 电 情 况 ， 同 时 稽查 工作 人 员 也 会 通 
若 能 通过 这 些 数 据 信息 提 取出 窃 漏电 用 户 的 关键 特征 ， 构 建 窃 漏电 用 户 的 识别 模型 ， 就 能 自动 检查 判断 用 户 是 否 存在 窃 漏电 行为 。 


296 
996 
996 
296 
996 
996 
996 
996 
996 
996 
996 
996 
996 
996 
996 
996 
995 
995 
996 
996 
996 


‚ 996 


995 


‚ 996 
‚ 996 


996 
996 
996 
996 
996 
996 


. 996 


HP APR 时 企业 天 用 户 7210100429 


计量 方式 电流 互感 器 变 比 电压 互感 器 变 比 IOkV /100V 


1515КУА 


我 局 用 电 检 查 人 员 根 据 群 众 举 报 ， 于 2014 年 11 H 17 日 到 你 户 进行 用 电 检 查 ， 发 现 你 户 (客户 编号 : 
7210100429) 配 电 变压器 (3 台 容 量 为 400КУА 和 1 台 容 量 为 315kVA) 的 高 压 计量 柜 的 前 门 封印 
(5100014930) 被 人 为 破坏 ， 计 费 电 能 表 (NO: 01026660， 条 形 码 МО. SEF5104000864) 的 计量 接线 全 
C 相 电压 连接 片 补 人 为 断 开 ， 计 费 电 能 表 显 示 C 相 电 流 为 0， 现 场 检测 计 费 电能 表 C 相同 时 失 压 失 流 ， F 
致 少 计 电量 .即时 报 当 地 公安 机 关 并 拍照 取证 ， 现 场 对 你 户 作 停电 处 理 。 当 时 计 费 电能 表 抄 见 有 功 止 码 
为 16448.77 


故意 使 供电 企业 用 电 计量 装置 不 准 或 失效 


硝 定 依据 : 计量 日 动 化 系统 记录 {2014 年 11 月 12 日 计 费 电能 表 存 在 失 压 失 流 记录 ， 直 至 2014 年 11 月 
17 H C 相 电 压 利 电流 数值 均 为 0)。 

ҮЕ: 确定 你 尸 窗 电 时 间 为 2014 年 11 月 12 日 至 2014 年 11 H 17 Н, 1:6 X. 

根据 现场 计量 装置 检查 情况 ， 计 费 电 能 表 C 相 失 压 失 流 ， 依 据 计 量 自 动 化 系统 召 测 数据 分 析 ， 你 户 计 
费 电能 表 (NO. 01026660 ， 条 形 码 ХО, 5ЕЕ5104000864) 的 2014 年 11 月 12 日 功率 因数 : COS(30° + b) 
=0.572， 即 ф =25.11°, COS¢ =0.905。 更 正 系 数 = P 正确 /P 错误 = UIC0S4/[ UICOS( b + 30°) ] = 
1. 732 х0. 905/0. 572 =2.74， 更 正 率 = 更 正 系数 -1 2.741 -1. 74. 2014 年 11 В 12 日 计 费 电 能 表 记 录 
有 了 蕊 止 销 为 16431.45， 碍 处 现 切 计 悔 电能 表 撑 见 有 功 止 硝 为 16 448. 77, Pii Sar E И АЈ 10075, HH: 
互感 峰 变 比 为 100007100。 根 据 «ТЕШ ЧҮШ» 第 一 百 夫 二 条 规定 ， 窃 电 者 应 按 所 完 电 量 补 交 电 费 ， 并 
承担 补 交 电费 三 倍 的 违约 使 用 电费 。 有 具体 计算 如 下 : 

l) 计 费 电能 表 已 计 收 电量 = ( 16 448.77 – 16 431. 45) x 100/5 x 10 000/100 =34 640( kW + h) 

2) Ж ШШ = 已 计 收 电量 x 更 正 率 =34 640 x1. 74 =60 274( kW + h) 

3) 窃 电 电费 =60274 х0. 6709 =40 437. 83 【元 ) 

4) 城市 建设 附加 费 =60274 х0. 014 =843. 84 (JÚ) 

5) 违约 使 用 电费 = 40 437. 83 x3 =121 313.46 (JÙ) 

6) ТИЗЕ = 40 437. 83 +843. 84 +121 313. 46 = 162 595.13 (元 ) 


合计 电费 : 162 595. 13 л; Кат: АБ ИНЧА TH az 227 


本 次 数据 挖掘 建 模 目标 如 下 : 


1) 归纳 出 窃 漏 电 用 户 的 关键 特征 ， 构 建 窃 调 电 用 户 的 识别 模型 ， 


2) 利用 实时 监测 数据 ， 调 用 窃 漏电 用 户 识别 模型 实现 实时 诊断 。 


62 ”分析 方法 与 过 程 


窃 漏 电 用 户 在 电力 计量 自动 化 系统 的 监控 大 用 户 中 只 占 小 部 分 ， 同 时 某 些 大 用 户 也 不 可 能 存在 窃 漏 电 行 为 ， 如 银行 、 税 务 、 学 校 、 工 商 等 非 居 民 类 别 ， 故 在 数据 预 处 理 时 有 必要 将 这 些 类 别 用 户 剔 除 。 
系统 中 的 用 电 负 倚 不 能 直接 体现 出 用 户 的 窃 漏电 行为 ， 终 端 报警 仓 在 很 多 误 报 和 漏 报 的 情况 ， 故 需要 进行 数据 探索 和 预 处 理 ， 总 结 窃 漏 电 用户 的 行为 规律 ， 再 从 数据 中 提炼 出 摘 述 窃 漏 电 用 户 的 特征 指标 。 
最 后 结合 历史 穷 漏 电 用 户 信息 ， 整 理 出 识别 模型 的 专家 样本 数据 集 ， 再 进一步 构建 分 类 模型 ， 实 现 穷 漏电 用 户 的 自动 识别 。 


穷 漏 电 用 户 识 别 流程 如 图 6-1 所 示 ， 主 要 包括 以 下 步骤 : 


1) 从 电力 计量 自动 化 系统 、 营 销 系 统 有 选择 性 地 抽取 部 分 大 用 户 用 电 负 荷 、 终 端 报警 及 违约 窃 电 处 罚 信息 等 原始 数据 ; 


2) 对 样本 数据 探索 分 析 ， 剔 除 不 可 能 存在 窃 漏 电 行为 行业 的 用 户 ， 即 白 名单 用 户 ， 初 步 审 视 正 常用 户 和 窃 漏 电 用 户 的 用 电 特 征 ; 


3) 对 样本 数据 进行 预 处 理 ， 包 括 数据 清洗 、 缺 失 值 处 理 和 数据 变换 ; 


4) 构建 专家 样本 集 ; 


5) Маа РЧЯ ЯЫ ; 


6) ТЕ 


WAP ЗЕБ {аг =, ARESA. 


数 
据 
控 
ж 
分 


每 天 实时 抽取 
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6.2.1 数据 抽取 
与 窃 漏 电 相关 的 原始 数据 主要 有 用 电 负 和 葵 数 据 、 终 端 报警 数据 、 违 约 窃 电 处 罚 信息 以 及 用 户 档案 资料 等 ， 故 进行 窃 漏 电 诊 断 建 模 时 需 从 营销 系统 和 计量 自动 化 系统 中 抽取 如 下 数据 。 
1) 从 营销 系统 抽取 的 数据 主要 如 下 : 
“ 用 户 基本 信息 : 用 户 名 称 、 用 户 编号 、 用 电 地 址 、 用 电 类 别 、 报 装 容量 、 计 量 方式 、 电 流 互感 器 变 比 、 电 压 互 感 器 变 比 ，; 
. 违约 、 窃 电 处 理 记录 ; 
. 计量 方法 及 依据 。 
2) 从 计量 自动 化 系统 采集 的 数据 属性 主要 如 下 : 


` 实时 负荷 : 时 间 点 、 计 量 点 、 总 有 功 功 率 、A/B/C 相 有 功 功率 、A/B/C 相 电流 、A/B/C 相 电压 、A/B/C 相 功率 因数 ; 


ЕЕЕ E 
ZJ ТХЕ HIS АНЕ 0, ЖЕЙ Р ДЕНЕ E) S: A-lPJFHFB25S5IJBSPR AS ВЕР АВР Р. БЕВА НАУА АЈ ЕАУ ЕВ АУК УаЈт ла, ЕРЕН ВЈ sa 


上 ， 用 电 负荷 和 终端 报警 等 数据 也 会 有 一 定 的 特征 变化 ， 故 样本 数据 抽取 时 务必 要 包含 关键 时 间 节 点 前 后 一 定 范围 的 数据 ， 并 通过 用 户 的 负荷 数据 计算 出 当天 的 用 电量 ， 公 式 如 下 : 


f =s 0.25 m. (6-1) 

ы Í [ : 
ME A 

式 中 ，f 内 第 | 天 的 用 电量 ; m 为 第 | 天 每 隔 15 分 钟 的 总 有 功 功 率 ， 对 其 累加 求 和 得 到 当天 用 电量 。 


基于 此 ， 本 案例 抽取 某 市 近 5 年 来 所 有 的 窃 漏电 用 户 有 关 数 据 和 不 同 用 电 类 别 正常 用 电 用 户 共 208 个 用 户 的 有 关 数 据 ， 时 间 为 2009 年 1 月 1 日 至 2014 年 12 月 31 日 ， 同 时 包含 每 天 是 否 有 穷 漏 电 情况 的 标 


6.2.2 ”数据 探索 分 析 
数据 探索 分 析 是 对 数据 进行 初步 研究 ， 友 现 数 据 的 内 在 规律 特征 ， 有 助 于 选择 合适 的 数据 预 处 理 和 数据 分 析 技 术 。 本 案例 主要 采用 分 布 分 析 和 周期 性 分 析 等 方法 对 电量 数据 进行 数据 探索 分 析 。 
1. 分 布 分 析 


对 2009 年 1 月 1 日 至 2014 年 12 月 31 日 共 5 年 所 有 的 穷 漏 用 户 进行 分 布 分 析 ， 统 计 出 各 个 用 电 类 别 的 窃 漏 电 用 户 分 布 情况 ， 从 图 6-2 可 以 发 现 非 居民 类 别 不 存在 窃 漏电 情况 ， 故 在 接 下 的 分 析 中 不 考虑 非 居 
民 类 别 的 用 电 数 据 。 


14 


12 


962 ”用 电 类 别 窃 漏 电 情 况 图 


2. 周 期 性 分 析 
随机 抽取 一 个 正常 用 电 用 户 和 一 个 窃 漏电 用 户 ， 采 用 周期 性 分 析 对 用 电量 进行 探索 。 
(1) 正常 用 电 电 量 探索 分 析 


正常 用 电量 特征 表现 如 图 6-3 和 表 6-4 所 示 。 总 体 来 看 该 用 户 用 量 比较 平稳 ， 没 有 太 大 的 波动 ， 这 就 是 用 户 正 常用 电 的 电量 指标 特征 。 


日 用 电量 /kW 
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图 6-3 正常 用 电 用 户 电 量 趋势 图 
表 6-4 正常 用 电 电量 数据 


2014/9/16 


2014/9/17 


5216 


2014/9/30 


日 用 电量 /kW 
5072 


5480 
5832 
4516 
2748 
2536 
5384 


(2) 窃 漏电 用 电 电量 探索 分 析 
窃 漏 电 用 电量 特征 表现 如 图 6-4 和 表 6-5 所 示 。 这 里 可 以 明显 看 出 该 用 户 用 电量 出 现 明 显 下 降 的 趋势 ， 这 就 是 用 户 异 常用 电 的 电量 指标 特征 。 
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6.2.3 ”数据 预 处 理 


本 案例 主要 从 数据 清洗 、 缺 失 值 处 理 、 数 据 变换 等 方面 对 数据 进行 预 处 理 。 
1 .数据 清洗 


数据 清洗 的 主要 目的 是 从 业务 以 及 建 模 的 相关 需要 方面 考虑 ， 筛 选 出 需要 的 数据 。 由 于 原始 数据 中 并 不 是 所 有 的 数据 都 需要 进行 分 析 ， 因 此 需要 在 数据 处 理 时 ， 将 玖 余 的 数据 进行 过 滤 。 本 案例 主要 进 
行 如 下 操作 : 


Т) 通过 数据 的 探索 分 析 ， 发 现在 用 电 类 别 中 ， 非 居民 用 电 类 别 不 可 能 存在 漏电 窃 电 的 现象 ， 需 要 将 非 居民 用 电 类 别 的 用 电 数 据 过 渡 掉 。 
2) 结合 本 案例 的 业务 ， 节 假日 用 电量 与 工作 日 相 比 ， 会 明显 偏 低 。 为 了 尽 可 能 地 达到 较 好 的 数据 效果 ， 过 滤 节 假日 的 用 电 数 据 。 


2. 缺 失 值 处 理 


值 处 理 。 本 案例 采用 拉 格 朗 日 插值 法 对 缺失 值 进行 插 补 。 
选取 数据 中 部 分 数据 作为 实例 ， 如 表 6-6 是 三 个 用 户 一 个 月 工作 日 的 电量 数据 ， 对 缺失 值 采用 拉 格 朗 日 插值 法 进行 揪 补 。 


表 6-6 三 个 用 户 一 个 月 工作 日 用 电量 数据 


“一 用 电量 /kW | 
ы ĦA B HAC 
H 期 к=... ñ 
2014/9/1 235. 8333 478. 3231 


2014/9/2 325. 6379 515. 4564 
2014/9/3 328. 0897 517. 0909 
2014/9/4 514. 89 
2014/9/5 268. 8324 

20147978 bl | 404. 048 486. 0912 
2014/9/9 391. 2652 516. 233 
2014/9/10 380. 8241 

2014/9/11 388. 023 435. 3508 
2014/9/12 206. 4349 487. 675 
2014/9/16 400. 0787 660. 2347 
2014/9/17 |  -_ | 411. 2069 621. 2346 
2014/9/18 395. 2343 611. 3408 
2014/9/19 344. 8221 643. 0863 
2014/9/22 385. 6432 642. 3482 


2014/9/29 236, 9688 Т 538, 347 


* 数 据 详 见 : 示例 程序 /data/missing даға. х1ѕ 
拉 格 明日 插值 法 补 值 ， 具 体 方法 如 下 : 


首先 从 原始 数据 集中 确定 因 变 量 和 自 变 量 ， 取 出 缺失 值 前 后 5 个 数据 (前 后 数据 不 足 25 个 的 ， 将 仅 有 的 数据 组 成 一 组 ) ， 根 据 取 出 来 的 10 个 数据 组 成 一 组 。 然 后 采用 拉 格 朗 日 多 项 式 插 值 公式 : 


L. (x) = xz)y (6-2) 
= 0 
二 

L) = |] 一 一 (6-3) 


тай 


式 中 ，x 为 缺失 值 对 应 的 下 标 序号 ; Ln (х) 为 缺失 值 的 插值 结果 ; x 为 非 缺 失 值 y 的 下 标 序号 。 对 全 部 缺失 数据 依次 进行 插 补 ， 直 到 不 存在 缺失 值 。 补 全 的 数据 如 表 6-7 所 示 ， 和 斜体 加 粗 表 示 补 全 的 数据 。 


表 6-7 用 户 电 量 补 全 数据 


— 用 电量 / kW 


A 
日 期 k. a 用 p 


ВР B HP C 


B 
и 


2014/9/4 235. 9063 203. 4621 514. 89 


/ 
| 


2014/9/5 236. 7604 268. 8324 465. 2697 


2014/9/8 237. 1512 404. 048 486. 0912 


201479710 238. 6563 380. 8241 516. 233 
2014/9/15 235. 0729 237. 3481 608. 5369 
2014/9/17 235. 315 411. 2069 621. 2346 
201479723 234. 5521 401. 6234 618. 1972 
2014/9/26 235. 4896 420. 7486 556. 3452 


2014/97/29 236. 9688 408. 9632 538. 347 


3. 数 据 变换 


通过 电力 计量 系统 采集 的 电量 、 负 和 荷 虽然 在 一 定 程度 上 能 反映 用 户 窃 漏 电 行为 的 某 些 规律 ， 但 要 作为 构建 模型 的 专家 样本 ， 特 征 不 明显 ， 需 要 进行 重新 构造 。 基 于 数据 变换 ， 得 到 新 的 评价 指标 来 表征 
窃 漏 电 行为 所 具有 的 规律 ， 其 评价 指标 体系 如 图 6-5 所 示 。 


© ТУА ИК Ж 


电量 赵 劳 下 降 指 标 线 损 指标 


ЕРУ. 
| | tipim НН Ж 
用 电量 趋势 线 损 增长 率 B 
ы ШЖ 25 21 
图 6-5 ” 窃 漏 电 评价 指标 体系 
穷 漏电 评价 指标 如 下 : 


(1) 电量 趋势 下 降 指 标 


由 6.2.2 节 的 周期 性 分 析 可 以 发 现 ， 正 常用 户 的 用 电量 较为 平稳 ， 穷 漏电 用 户 的 用 电量 呈现 下 降 的 趋势 ， 然 后 趋 于 平缓 ， 针 对 此 可 考虑 前 后 几 天 作为 统计 窗口 期 ， 考 虑 期 间 的 下 降 趋 势 ， 利 用 电量 做 直线 
拟 合 得 到 的 斜率 作为 衡量 ， 如 果 和 余华 随时 间 不 断 下 降 ， 那 该 用 户 的 窃 漏电 可 能 性 束 很 大 ， 如 图 6-6 所 示 ， 第 一 幅 图 展示 了 每 天 的 用 电量 ， 其 他 图 表示 了 随 着 时 间 推 移 在 各 自 统 计 窗口 期 以 用 电量 做 直线 拟 合 的 
斜率 ， 可 以 看 出 斜率 随 着 时 间 逐 步 下 降 。 


对 统计 当天 设 定 前 后 5 天 为 统计 窗口 期 ， 计 算 这 11 天 内 的 电量 趋势 下 降 情 况 ， 首 先 计算 这 11 天 中 每 天 的 电量 趋势 ， 其 中 第 i 天 的 用 电量 趋势 是 考虑 前 后 5? 天 期 间 的 用 电量 斜率 ， 即 
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866 ”电量 趋势 下 降 示 意图 


若 电量 趋势 为 不 断 下 降 的 ， 则 认为 具有 一 定 的 窃 电 嫌疑 ， 故 计算 这 11 天 内 ， 当 天 比 前 一 天 用 电量 趋势 为 递 碱 的 天 数 ， 即 设 有 : 


Г. а о 


р(і) = 6-5 


则 这 11 天 内 的 电量 趋势 下 降 指标 为 : 


L+S 


(6-6) 


FÉ = £ =] 
(2) 线 损 指标 
线 损 率 是 用 于 衡量 供电 线路 的 损失 比例 ， 同 时 可 结合 线 户 拓扑 关系 (图 6-7) 计算 出 用 户 所 属 线路 在 当天 的 线 损 率 ， 一 条 线路 上 同时 供给 多 个 用 户 ， 若 第 | 天 的 线路 供电 量 为 sj， 线 路 上 各 个 用 户 的 总 用 电 
量 为 </ ， 线 路 的 线 损 率 公式 为 : 


_ > f т} 
тп 


E, сыз = x 100% (6-7 ) 


大 用 户 1 大 用 户 2 大 用 户 3 


图 6-7 线路 与 大 用 户 的 拓扑 关系 示意 图 


线路 的 线 损 率 可 作为 用 户 线 损 率 的 参考 值 ， 若 用 户 发 生 穷 漏 电 ， 则 当天 的 线 损 率 会 上 升 ， 但 由 于 用 户 每 天 的 用 电量 存在 波动 ， 单 纯 以 当天 线 损 率 上 升 了 作为 窃 漏电 特征 则 误差 过 大 ， 所 以 考虑 前 后 几 天 
的 线 损 率 平均 值 ， 判 断 其 增长 率 是 否 大 于 1%， 若 线 损 率 的 增长 率 大 于 1% 则 具有 窃 漏 电 的 可 能 性 。 

对 统计 当天 设 定 前 后 5 天 为 统计 窗口 期 ， 首 先 分 别 计算 第 i 天 与 i+5 天 之 间 共 6 天 的 线 损 率 平 均值 /和 第 i 天 与 第 ij-5 天 之 间 共 6 天 的 线 损 率 平均 值 上 ， 若 ! 比 ! 的 增长 率 大 于 1%， 则 认为 具有 一 定 的 窃 电 嫌疑 ， 
故 定义 线 损 指标 : 


zl a m 
I — > 1% 
Е(і) = О (6-8) 
0, Е -< |9 


= 


(3) 告警 类 指标 
与 窃 漏 电 相 关 的 终端 报警 主要 有 电压 缺 相 、 电 压 断 相 、 电 流 反 极 性 等 告警 ， 计 算 发 生 与 窃 漏 电 相关 的 终端 报警 的 次 数 总 和 ， 作 为 告警 类 指标 。 
624 构建 专家 样本 


对 2009 年 1 月 1 日 至 2014 年 12 月 31 日 所 有 窃 漏电 用 户 及 正常 用 户 的 电量 、 告 警 及 线 损 数据 和 该 用 户 在 当天 是 否 窃 漏 电 的 标识 ， 按 窃 漏 电 评价 指标 进行 处 理 并 选取 其 中 291 个 样本 数据 ， 得 到 专家 样本 库 ， 
部 分 数据 如 表 6-8 所 示 。 


表 6-8 专家 样本 数据 


ав авай анк 
(24) 
日 期 арн 线 损 指标 7 是 否 窃 漏电 


* 数 据 详 见 : 示例 程序 /data/model.csv 


6.2.5 ”模型 构建 


1. 构 建 窃 漏电 用 户 识别 模型 


在 专家 样本 准备 完成 后 ， 需 要 划分 测试 样本 和 训练 样本 ， 随 机 选取 20% 作 为 测试 样本 ， 剩 下 的 作为 训练 样本 。 窃 漏电 用 户 识别 可 通过 构建 分 类 预测 模型 来 实现 ， 比 较 常用 的 分 类 预测 模型 有 神经 网 络 和 
CART 决 策 树 ， 各 个 模型 都 有 各 自 的 优点 ， 故 采用 这 两 种 方法 构建 窃 漏 电 用 户 识别 ， 并 从 中 选择 最 优 的 分 类 模型 。 构 建 神经 网 络 和 CART 决 策 树 模型 时 输入 项 包括 电量 趋势 下 降 指 标 、 线 损 指 标 和 告警 类 指 
标 ， 输 出 项 为 窃 漏 电 标识 。 


(1) 数据 划分 
对 专家 样本 随机 选取 20% 作 为 测试 样本 ， 剩 下 的 80% 作 为 训练 样本 。 其 代码 如 代码 清单 6-1 所 示 。 
代码 清单 6-1 原始 数据 分 为 训练 数据 和 测试 数据 


## 数 据 划分 


НЕХ E TL 4E [а] 

# 把 “数据 及 程序 ”文件 夹 复制 到 E 盘 下 ， 再 用 Setwd 设 置 工作 空间 

setwd ("F: /数据 及 程序 /chapter6/ 示 例 程序 ") 

井 # 把 数据 分 为 两 部 分 : 训练 数据 、 测 试 数据 

# 读 入 数据 

Data=read.csv ("./data/model .csv") 

# 数 据 命 名 

colnames (Data) <-c ("time", "userid", "ele ind", "loss ind", "alarm ind", "с1аѕѕ") 
# 数 据 分 割 


set.seed (1234) # 设 置 随机 种 子 

# 定 义 序列 ind， 随 机 抽取 1 和 2，1 的 个 数 占 80%，2 的 个 数 占 20% 

ind < sample (2, nrow (Data) ， replace=TRUE, prob=c (0.8, 0.2) ) 
trainData <-Data [іпа==1, | 训练 数据 


testData <- Data [ind==2, | # 测 试 数据 

# 数 据 存储 

write.csv (trainData, "./tmp/trainData.csv", row.names=FALSE) 
write.csv (testData, "./tmp/testData.csv", row.names=FALSE) 


# 代 码 详 见 : 示例 程序 /code/split_data.R 
(2) 神经 网 络 


设 定神 经 网 络 的 输入 节点 数 为 3， 输 出 节点 数 为 1， 隐 层 节点 数 为 10， 权 值 的 衰减 参数 为 0.05。 训 练 样本 建 模 的 混淆 矩阵 如 表 6-9 所 示 ， 分 类 准确 率 为 94.17%， 正 常用 户 被 误 判 为 窃 漏 电 用 户 占 正 常用 户 
的 1.95%， 穷 漏电 用 户 被 误 判 为 正常 用 户 占 正常 窃 漏 电 用 户 的 28.6%。 构 建 神经 网 络 模型 的 代码 如 代码 清单 6-2 所 示 。 


表 6-9 利用 训练 样本 构建 神经 网 络 的 混淆 矩阵 


Cemas PDT <Il 
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代码 清单 6-2 构建 神经 网 络 模 型 代码 


## 神 经 网 络 模型 构建 

НХ Жол} Z ja] 

# 把 “数据 及 程序 ”文件 夹 复制 到 E 盘 下 ， 再 用 setwq 设 置 工作 空间 
setwd ("F: /数据 及 程序 /chapter6/ 示 例 程序 ") 

# 读 取 数 据 

trainData=read.csv ("./data/trainData.csv") 

# 将 class 列 转换 为 factor 类 型 
trainData<-transform (trainData, class=as.factor (class) ) 

## 神 经 网 络 模型 构建 

library (nnet) # 加 载 nnet 包 

# 利 用 nnet 建 立 神经 网 络 

nnet.model<-nnet (class~ele ind+loss ind+alarm ind, trainData, size=10, 
аесау=0.05) 

summary (nnet.model) 

HERA 2E £ 

confusion=table (trainDataSclass, predict (nnet.model, trainData, type="class") ) 
accuracy=sum (diag (confusion) ) *100/sum (confusion) 


# 保 存 输出 结果 

output nnet.trainData=cbind (trainData, predict (nnet.model, trainData, type="class") ) 
colnames (output nnet.trainData) <-c (colnames (trainData) , "OUTPUT") 

write.csv (output nnet.trainData, "./tmp/output nnet.trainData.csv", row.names=FALSE) 


# 保 存 神经 网 络 模 型 
save (nnet.model, file="./tmp/nnet.model .RData") 


* 代 码 详 见 : 示例 程序 /code/construct_nnet_model.R 


(3) CART 决 策 树 


利用 训练 样本 构建 CART 决 策 树 模型 ， 得 到 的 决策 树 模 型 如 图 6-8 所 示 ， 得 到 混淆 和 矩阵 如 表 6-10 所 示 ， 分 类 准确 率 为 91.67%， 正 常用 户 被 误 判 为 窃 漏 电 用 户 占 正常 用 户 的 5.85%， 窃 漏电 用 户 被 误 判 为 正 
常用 户 占 正常 窃 漏电 用 户 的 22.86%。 构 建 决策 树 的 代码 如 代码 清单 6-3 所 示 。 


ele ind < 4.5 


alarm ind < 2.5 loss ind < 0.5 


alarm ind < 1.5 alarm ind < 2.5 
ele Ind < 3.5 


| _ | | | 
loss ind < 0.5 alarm ind < 0.5 0 1 


ele Ind < 1.5 
ele ind < 2.5 


0 0 Ü 0 
图 6-8 CART 决 策 树 
表 6-10 ”利用 训练 样本 构建 CART 决 策 树 的 混淆 给 阵 
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代码 清单 6-3 ”构建 CART 决 策 树 模型 代码 


## 构 建 CART 决 策 树 模型 

НЕХ E TL 4 Z ja] 

# 把 “数据 及 程序 ”文件 夹 复制 到 E 盘 下 ， 再 用 Setwd 设 置 工作 空间 

setwd ("F: /数据 及 程序 /chapter6/ 示 例 程序 ") 

# 读 取 数 据 

trainData=read.csv ("./data/trainData.csv") 

# 将 class 列 转换 为 factor 类 型 

trainData<-transform (trainData, class=as.factor (class) ) 
### 构 建 CART 决 策 树 模型 

library (tree) # 加 载 tree 包 

# 利 用 tree 建 立 CART 决 策 树 tree.model<-tree (class~ele ind+loss indtalarm ind, trainData) 
summary (tree.model) 


PE k RRA 

plot (tree.model) ; text (tree.model) 

# 建 立 混淆 矩阵 

confusion=table (trainData$class, predict (tree.model, trainData, type="class") ) 


accuracy=sum (diag (confusion) ) *100/sum (confusion) 


# 保 存 输出 结 

output tree.trainData=cbind (trainData, predict (tree.model, trainData, type="class") ) 
colnames (output tree.trainData) <-c (colnames (trainData) , "OUTPUT") 

write.csv (output tree.trainData, "./tmp/output tree.trainData.csv", row.names=FALSE) 
# 保 存 CART 决 策 树 模型 

save (tree.model, file="./tmp/tree.model .RData") 


* 代 码 详 见 : 示例 程序 /code/construct_tree_model.R 


2. 模 型 评价 


对 于 训练 样本 ， 神 经 网 络 和 CART 决 策 树 的 分 类 准确 率 相差 不 大 ， 均 达到 90% 以 上 。 为 了 进一步 评估 模型 分 类 的 性 能 ， 故 利用 测试 样本 对 两 个 模型 进行 评价 ， 评 价 方法 采用 ROC 曲 线 进行 评估 ， 一 个 优 
秀 分 类 器 所 对 应 的 ROC 曲 线 应 该 是 尽量 靠近 左上 角 。 分 别 画 出 神经 网 络 和 CART 决 策 树 在 测试 样本 下 的 ROC 曲 线 ， 如 图 6-9 和 图 6-10 所 示 。 神 经 网 络 和 CART 决 策 树 对 测试 数据 集 的 测试 代码 如 代码 清单 6-4 所 


^^ 


True positive rate 


l.Ü 


0.8 


0.6 


0.4 


0.2 


0.0 


0.0 


0.2 


0.4 0.6 
False positive rate 


图 6-9 神经 网 络 在 测试 样本 下 的 ROC 曲 线 
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代码 清单 6-4 ”神经 网 络 和 CART 决 策 树 测试 代码 


##ROC 曲线 
## 设 置 工作 空间 | 
# 把 “数据 及 程序 ”文件 夹 复制 到 FF 盘 下 ， 再 用 setwd 设 置 工作 空间 setwd ("F: /数据 及 程序 /chapter6/ 示 例 程序 ") 


# 读 取 数 据 

testData=read.csv ("./data/testData.csv") 
# 读 取 模 型 

load ("./tmp/tree.model .RData") 

load ("./tmp/nnet.model .RData") 

##ROC 曲 线 

library (ROCR) # 加 载 ROCR 包 


# 画 出 神经 网 络 模型 的 ROC 曲 线 


nnet.pred <- prediction (predict (nnet.model, 
nnet.perf <- performance (nnet.pred, "tpr", "і 
plot (nnet.perf) 

# s, h CART Ж hI ROC h Ж 


<- регі 


plot (tree.perf) 


Formance (tree.pred, "tpr", "і 


* 代 码 详 见 : 示例 程序 /code/ROC.R 


0.2 0.4 0.6 (А: 1.0 
False positive rate 


图 6-10 CART 决 策 树 在 测试 样本 下 的 ROC 曲 线 


testData) , testDataSclass) 
Ерк") 


Егее.ргеа <- prediction (predict (tree.model, testData) [, 2] , testDataSclass) 
tree.perf 


Ерк") 


经 过 对 比 发 现 神 经 网 络 的 ROC 曲 线 比 CART 决 策 树 的 ROC 曲 线 更 加 靠近 单位 方形 的 左上 角 ， 神 经 网 络 ROC 曲 线 下 的 面积 更 大 ， 说 明神 经 网 络 模型 的 分 类 性 能 较 好 ， 能 应 用 于 窃 漏 电 用 户 识 别 。 


3. 进 行窃 漏电 诊断 


在 线 监测 用 户 用 电 负 荷 及 终端 报警 数据 ， 并 经 过 6.2.3 节 的 处 理 ， 得 到 模型 输入 数据 ， 利 用 构建 好 的 窃 漏 电 用 户 识别 模型 计算 用 户 的 窃 漏 电 诊断 结果 ， 实 现 窃 漏 电 用 户 实 时 诊断 ， 并 与 实际 稿 查 结果 作对 
比 ， 如 表 6-11 所 示 ， 可 以 发 现 正确 识别 出 窃 漏 电 用 户 有 10 个 ， 错 误 地 判断 用 户 为 窃 漏 电 用 户 有 1 个 ， 诊 断 结 果 没 发 现 穷 漏电 用 户 有 4 个 ， 整 体 来 看 窃 漏 电 诊断 的 准确 率 是 比较 高 ， 下 一 步 的 工作 是 针对 漏 判 的 
用 户 ， 研 究 其 在 窃 漏 电 期 间 的 用 电 行 为 ， 优 化 模型 的 特征 ， 提 高 识别 的 准确 率 。 


表 6-11 窃 漏 电 诊断 结果 与 实际 稽查 结果 作对 比 


客户 编 号 客户 名 称 窃 电 开始 日 期 Ж 


7110100608 2014/6/2 正确 诊断 
9900508537 正确 诊断 
9900531988 正确 诊断 
8210101409 正确 诊断 
8910100571 RA 


EU Fl 
8210100795 某 表 帝 加 工厂 正确 诊断 


9900287332 基 电 子 有 限 从 局 2014/5/15 漏 判 


6710100757 某 镇 某 经 济 联 合 社 2014/2/21 EIl 


客户 编号 结果 

9900378363 某 装 饰 材料 有 限 公司 ТЕ 

9900145275 Жз Чү НЕОН ЕДЕ 正确 诊断 
8410101508 某 玩 具 厂 有 限 公司 正确 诊断 
9900150075 某 镇 某 经 济 联合 社 ети 

8010106559 正确 诊断 
7410101282 某 投资 有 限 公司 正确 诊断 
8410101060 某 电 子 有 限 公司 正确 诊断 


63 ”上 机 实验 


1. 实 验 目的 


- 掌握 神经 网 络 和 CART 决 策 树 构建 分 类 模型 。 


` 对 所 有 窃 漏 电 用 户 及 正常 用 户 的 电量 、 告 警 及 线 损 数据 和 该 用 户 在 当天 是 否 窃 漏 电 的 标识 ， 按 窃 漏电 评价 指标 进行 处 理 并 选取 其 中 291 个 样本 数据 ， 得 到 专家 样本 ， 数 据 见 “上 机 实 
验 /data/modelcsv” ， 分 别 使 用 神经 网 络 和 CART 决 策 树 实 现 分 类 预测 模型 ， 利 用 混淆 矩阵 和 ROC 曲 线 对 模型 进行 评价 。 


注意 : 数据 的 80% 作 为 训练 样本 ， 剩 下 的 20% 作 为 测试 样本 。 

3. 实 验方 法 与 步骤 

1) 把 经 过 预 处 理 的 专家 样本 数据 “上 机 实验 /data/model.csv” 使 用 read.csv 函 数 读 入 当前 工作 空间 。 
2) 把 工作 空间 的 建 模 数据 随机 分 为 两 部 分 ， 一 部 分 用 于 训练 ， 另 一 部 分 用 于 测试 。 


3) 使 用 tree 包 里 的 tree 数 以 及 训练 数据 构建 CART 决 策 树 模型 ， 使 用 predict 函 数 和 构建 的 CART 决 策 树 模型 分 别 对 训练 数据 和 测试 数据 进行 分 类 ， 使 用 table 函 数 求 出 混淆 和 矩阵， 利用 ROCR 包 下 的 
prediction 和 performance 函 数 画 ROC 曲 线 图 。 


4) 使 用 nnet 包 里 的 nnet 函 数 以 及 训练 数据 构建 神经 网 络 模型 ， 使 用 predict 遂 数 和 构建 的 神经 网 络 模型 分 别 对 训练 数据 和 测试 数据 进行 分 类 ， 参 考 3) 得 到 模型 分 类 正确 率 、 混 淆 矩阵 和 ROC 曲 线 图 。 


5) 对 比分 析 CART 决 策 树 模 型 和 神经 网 络 模型 针对 专家 样本 数据 处 理 结果 的 好 坏 。 


1) 如 何 求 出 ROC 曲 线 以 下 的 面积 ? 


2) 尝试 采用 C4.5 决 策 树 模型 进行 分 类 ， 并 与 CART 决 策 树 的 结果 进行 比较 。 


64 ”拓展 思考 


目前 ,企业 偷 漏税 现象 泛滥 ， 严 重 影 响 国家 的 经 济 基础 。 为 了 维护 国家 的 权力 与 利益 ， 应 该 加 大 对 企业 偷 漏税 行为 的 防范 工作 。 如 何 利 用 数据 挖掘 的 思想 ， 智 能 地 识别 企业 偷 漏税 行为 ， 有 力 地 打击 企 
业 偷 漏税 的 违法 行为 ， 维 护 国 家 的 经 济 损失 和 社会 秩序 。 


汽车 销售 行业 ， 通 常 是 指 销 售 汽车 整 车 的 行业 。 汽 车 销售 行业 在 税收 上 存在 少 开发 票 金额 、 少 计 收入 、 上 上 牌 、 按 揭 、 保 险 等 一 条 龙 服 务 示 入账 ， 不 及 时 确认 保修 索赔 款 等 多 种 情况 ， 导 致 政府 损失 大 量 
税收 。 汽 车 销售 企业 的 部 分 经 营 指标 能 在 一 定 程度 上 评估 企业 的 偷 漏税 倾向 ， 附 件数 据 ( 见 : 拓展 思考 /拓展 思考 样本 数据 .xls) 提供 了 汽车 销售 行业 纳税 人 的 各 个 属性 和 是 否 偷 漏税 标识 ， 请 结合 汽车 销售 
行业 纳税 人 的 各 个 属性 ， 总 结 衡量 纳税 人 的 经 营 特征 ， 建 立 偷 漏税 行为 识别 模型 ， 识 别 偷 漏 税 纳 税 人 。 


65 人 小结 


本 章 结合 窃 漏 电 用 户 识别 的 案例 ， 重 点 介绍 了 数据 挖掘 算法 中 神经 网 络 和 CART 决 策 树 算法 在 实际 案例 中 的 应 用 。 研 究 窃 漏电 用 户 的 行为 特征 ， 总 结 出 窃 漏 电 用 户 的 特征 指标 ， 对 比 神经 网 络 和 CART 决 
策 树 算法 在 窃 漏 电 用 户 的 识别 效果 ， 从 中 选取 最 优 模型 进行 窃 漏 电 诊断 ， 并 详细 地 摘 述 了 数据 挖掘 的 整个 过 程 ， 也 对 其 相应 的 算法 提供 了 R 语 言 上 机 实验 。 


第 7 章 ”航空 公司 客户 价值 分 析 


7.1 背景 与 挖掘 目标 


言 息 时 代 的 来 临 使 得 企业 营销 焦点 从 产品 中 心 转 变 为 客户 中 心 ， 客 户 关系 管理 成 为 企业 的 核心 问题 。 客 户 关系 管理 的 关键 问题 是 客户 分 类 ， 通 过 客户 分 类 ， 区 分 无 价值 客户 、 高 价值 客户 ， 企 业 针对 不 
同 价值 的 客户 制定 优化 的 个 性 化 服务 方案 ， 采取 不 同 的 营销 策略 ， 将 有 限 营 销 资 源 集 中 于 高 价值 客户 ， 实 现 企业 利 润 最 大 化 目标 。 准 确 的 客户 分 类 结果 是 企业 优化 营销 资源 分 配 的 重要 依据 ， 客 户 分 类 越 来 
越 成 为 客户 关系 管理 中 亚 待 解决 的 关键 问 题 之 一 。 


面 对 激烈 的 市 场 竞 争 ， 各 个 航空 公司 都 推出 了 更 优惠 的 营销 方式 来 吸引 更 多 的 客户 ， 国 内 某 航 空 公司 面临 着 常 旅客 流失 、 竞 争 力 下 降 和 航空 资源 未 充分 利用 等 经 营 危机 。 通 过 建立 合理 的 客户 价值 评估 
模型 ， 对 客户 进行 分 群 ， 分 析 比 较 不 同 客户 群 的 客户 价值 ， 并 制定 相应 的 营销 策略 ， 对 不 同 的 客户 群 提供 个 性 化 的 客户 服务 是 必须 的 和 有 效 的 。 目 前 ， 该 航空 公司 已 积累 了 大 量 的 会 员 档 案 信 息 和 其 乘坐 航 
班 记录 ， 经 加 工 后 得 到 如 表 7-1 所 示 的 部 分 数据 信息 。 


表 7-1 航空 信息 属性 表 


属性 名 称 属性 说 明 
MEMBER_NO 会 员 卡 号 


FFP DATE 入 会 时 间 

FIRST _ FLIGHT DATE 第 一 次 飞行 日 期 
客户 基本 信息 === 

GENDER 性 别 

FFP TIFR 会 员 卡 级 别 


WORK CITY [ 作 地 城市 


(28) 


属性 名 称 属性 说 明 

WORK_PROVINCE [ 作 地 所 在 省 份 

客户 基本 信息 WORK_ COUNTRY 工作 地 所 在 国家 
ACE 年 龄 
FLIGHT_COUNT 观测 窗口 内 的 飞行 次 数 

观测 窗口 的 结束 时 间 

LAST_TO_END 最 后 一 次 乘机 时 间 至 观测 窗口 结束 时 长 
AVG_DISCOUNT 平均 折扣 率 

乘机 信息 SUM_YR 观测 窗口 的 票 价 收入 
SEG_KM_SUM 观测 窗口 的 总 飞行 公里 数 
LAST_FLIGHT_DATE 末次 飞行 日 期 
AVG_INTERVAL 平均 乘机 时 间 间 隔 
MAX_INTERVAL 最 天 乘机 间隔 
EXCHANCE_COUNT 积分 兑换 次 数 
EP SUM 总 精英 积分 
PROMOPTIVE_SUM 促销 积分 

积分 信息 PARTNER_SUM 合作 伙伴 积分 
POINTS_SUM 总 累计 积 
POINT_NOTFLIGHT 非 滋 机 的 积分 变动 次 数 


BP SUM 已 基本 积分 


* 观 测 窗口 : 以 过 去 某 个 时 间 点 为 结束 时 间 ， 某 一 时 间 长 度 作 为 宽度 ， 得 到 历史 时 间 范 围 内 的 一 个 时 间 段 
请 根据 这 些 数据 ( 见 表 7-2) 实现 以 下 目标 : 

1) 借助 航空 公司 客户 数据 ， 对 客户 进行 分 类 ; 

2) 对 不 同 的 客户 类 别 进 行 特征 分 析 ， 比 较 不 同类 客户 的 客户 价值 ; 


3) 对 不 同 价值 的 客户 类 别提 供 个 性 化 服务 ， 制 定 相应 的 营销 策略 。 


第 7/ 章 ”航空 公司 客户 价值 分 析 


7.1 背景 与 挖掘 目标 


言 息 时 代 的 来 临 使 得 企业 营销 焦点 从 产品 中 心 转 变 为 客户 中 心 ， 客 户 关系 管理 成 为 企业 的 核心 问题 。 客 户 关系 管理 的 关键 问题 是 客户 分 类 ， 通 过 客户 分 类 ， 区 分 无 价值 客户 、 高 价值 客户 ， 企 业 针 对 不 
同 价值 的 客户 制定 优化 的 个 性 化 服务 方案 ， 采取 不 同 的 营销 策略 ， 将 有 限 营 销 资 源 集 中 于 高 价值 客户 ， 实 现 企业 利 润 最 大 化 目标 。 准 确 的 客户 分 类 结果 是 企业 优化 营销 资源 分 配 的 重要 依据 ， 客 户 分 类 越 来 
越 成 为 客户 关系 管理 中 骂 待 解决 的 关键 问题 之 一 。 


面 对 激烈 的 市 场 竞 争 ， 各 个 航空 公司 都 推出 了 更 优惠 的 营销 方式 来 吸引 更 多 的 客户 ， 国 内 某 航 空 公司 面临 着 常 旅客 流失 、 竞 争 力 下 降 和 航空 资源 未 充分 利用 等 经 营 危机 。 通 过 建立 合理 的 客户 价值 评估 
模型 ， 对 客户 进行 分 群 ， 分 析 比 较 不 同 客户 群 的 客户 价值 ， 并 制定 相应 的 营销 策略 ， 对 不 同 的 客户 群 提供 个 性 化 的 客户 服务 是 必须 的 和 有 效 的 。 目 前 ， 该 航空 公司 已 积累 了 大 量 的 会 员 档 案 信 息 和 其 乘坐 航 
班 记录 ， 经 加 工 后 得 到 如 表 7-1 所 示 的 部 分 数据 信息 。 


表 7-1 航空 信息 属性 表 
属性 说 明 
МЕМВЕВ_ХО 会 员 卡 号 
FFP_DATE 人 会 时 间 
FIRST_FLIGHT_DATE 第 一 次 飞行 日 期 
GENDER 性 别 
会 员 卡 级 别 


WORK CITY [ 作 地 城市 


客户 基本 信息 


属性 名 称 属性 说 明 


WORK_PROVINCE [ 作 地 所 在 省 份 
客户 基本 信息 WORK_COUNTRY 工作 地 所 在 国家 
FLIGHT_COUNT 观测 窗口 内 的 飞行 次 数 
观测 窗口 的 结束 时 间 
LAST_TO_END 最 后 一 次 乘机 时 间 至 观测 窗口 结束 时 长 
AVG_DISCOUNT 平均 折扣 率 
乘机 信息 观测 窗口 的 标价 收入 


SEG_KM_SUM 观测 窗口 的 总 飞行 公里 数 
LAST _FLIGHT DATE 未 次 飞行 日 期 
AVG_INTERVAL 平均 滋 机 时 间 间 陋 
MAX INTERVAL 最 天 乘机 间隔 
EXCHANCE_COUNT 积分 兑换 次 数 
PROMOPTIVE_SUNM 促销 积分 

积分 信息 PARTNER_SUM 合作 伙伴 积分 


POINTS_SUM л BE T| RH y 


POINT NOTFLICHT ЧЕЗЕНА ЛЕ АЛИК Ж 


总 基本 积分 


* 观 测 窗口 : 以 过 去 菜 个 时 间 点 为 结束 时 间 ， 某 一 时 间 长 度 作 为 宽度 ， 得 到 历史 时 间 范 围 内 的 一 个 时 间 段 


请 根据 这 些 数据 ( 见 表 7-2) 实现 以 下 目标 : 
1) 借助 航空 公司 客户 数据 ， 对 客户 进行 分 类 
2) 对 不 同 的 客户 类 别 进 行 特征 分 析 ， 比 较 不 同类 客户 的 客户 价值 ; 


3) 对 不 同 价值 的 客户 类 别提 供 个 性 化 服务 ， 制 定 相应 的 营销 策略 。 


72 “分 析 方 法 与 过 程 


这 个 案例 的 目标 是 客户 价值 识别 ， 即 通过 航空 公司 客户 数据 识别 不 同 价值 的 客户 。 识 别 客户 价值 应 用 最 广泛 的 模型 是 通过 三 个 指标 (最近 消费 时 间 间 隔 (Recency) 、 消 费 频率 (Frequency) 、 消 费 
金额 (Monetary) ) 进行 客户 细 分 ， 识 别 出 高 价值 的 客户 ， 简 称 RFM 模 型 [1 

在 RFM 模 型 中 ， 消 费 金额 表示 在 一 段 时 间 内 ， 客 户 购买 该 企业 产品 金额 的 总 和 。 由 于 航空 票 价 受到 运输 距离 、 舱 位 等 级 等 多 种 因素 影响 ， 消 费 金额 的 不 同 ， 旅 客 对 航空 公司 的 价值 是 不 同 的 ， 如 一 位 购 
买 长 航线 、 低 等 级 舱位 票 的 旅客 与 一 位 购买 短 航线 、 高 等 级 舱位 票 的 旅客 相 比 ， 后 者 对 于 航空 公司 而 言 价 值 可 能 更 高 。 因 此 这 个 指标 并 不 适合 用 于 航空 公司 өле» 我 们 选择 客户 在 一 定时 间 内 


累积 的 飞行 里 程 M 和 客户 在 一 定时 间 内 乘坐 舱位 所 对 应 的 折扣 系数 的 平均 值 C 两 个 指标 代替 消费 金额 。 此 外 ， 考 虑 航空 公司 会 员 入 会 时 间 的 长 短 在 一 定 程 度 影响 客户 价值 ， 所 以 在 模型 中 增加 客户 关 
系 长 度 L， 作 为 区 分 客户 的 另 一 指标 。 


表 7-2 航空 信息 数据 表 


MEMBER NO| FFP DATE | ЕІВ5Т FLIGHT_DATE|GENDERI|IFFP ТІЕВМОНК CITY _PROVWINCEIWORK COUNTRY LOAD TME IFL|GHT COUNTIBP SUM 


ш 

ү 
гш 
КЕР! 
тг, 
Гы 


289004181 |2009/12/10 2010/10/19 э [+ кк, CORTES LC 3014/03/31] 6 76027 
10142 


2589026513 |2011/08/25 2011/08/25 .... з Жж 47 |2014/03/31 
Fi 2709726 РА 6, H h: 


ол w | һә hy T 
== Á, Г. ып P. Ге | ЕЧ) u 


289027500 с 03/31 26 63498 
289058В9В 62810 
28903737 34 |2014/03/31 50484 
289036013 2014/03/31 59357 
289046087 2014/03/31 36 55562 
289062045 2014/03/31 49 54255 
289061968 2014/03/3] 53926 
289022276 2014703731 62 3492243 
299055049 3014703731 |a 49121 
299000500 3, 2013/04/01 ДЕТ" ДЕ. 2014703731 65 465618 
289021001 |2008/03709 1013/07/10 эе —— š 20140331 39584 
289041371 [2011/10/15] 2013709704 | ж | 6 а T = je 2014/03/3] 38089 
289062046 |2007/10/19 юл» | x [з яе е |» 201403,3] 37188 
289037246 |2007/08/30] 2013/04/18 | 5 | 6 Jam | am | cy рат [201403731 36471 
289045852 |2006/08/16 2014703731] в |35707 


* 数 据 详 见 : 示例 程序 /data/ait_data.csv 
本 案例 将 客户 入 会 时 长 L、 消 费时 间 间 隔 R、 消 费 频 率 F、 飞 行 里 程 M 和 折扣 系数 的 平均 值 C 五 个 指标 作为 航空 公司 识别 客户 价值 指标 ( 见 表 7-3) ， 记 为 LRFMC 模 型 


表 7-3 指标 含义 


ë | L | php | E | M | c 
| 客户 最 近 一 
ља A Z Hk 
аЛа адак 
宙 距 观测 窗口 
结束 的 月 数 


客户 在 观测 客户 在 观测 客户 在 观测 窗口 
窗口 内 乘坐 会 | 窗口 内 累计 的 | 内 乘坐 舱位 所 对 应 
司 飞 机 的 次 数 & 行 里 程 的 折扣 系数 的 平均 值 


航空 公司 LR- 
FMC n 


[al ЕЛ i 64 H 
结束 的 月 数 


针对 航空 公司 LRFMC 模 型 ， 如 果 采 用 传统 RF M 模 型 分 析 的 属性 分 箱 方法 ， 如 图 7-1 所 示 D] ( 它 是 依据 属性 的 平均 值 进行 划分 ， 其 中 大 于 平均 值 的 表示 为 +， 小 于 平均 值 的 表示 为 |) ， 虽 然 也 能 够 识别 出 
最 有 价值 的 客户 ， 但 是 细 分 的 客户 群 太 多 ， 提 高 了 针对 性 曹 销 的 成 本 。 因 此 ， 本 案例 采用 聚 类 的 方法 识别 客户 价值 。 通 过 对 航空 公司 客户 价值 的 LRF MC 五 个 指标 进行 K-Means 聚 类 ， 识 别 出 最 有 价值 客户 。 


重要 挽留 客户 重要 发 展 客户 


重要 保持 客户 重要 价值 客户 


R| 


一 般 挽留 客户 ! 量 一 般 发 展 客户 


E “Ee т „ F L: wt" 


M| 


图 7-1 RFM 模 型 分 析 


本 案例 航空 客户 价值 分 析 的 总 体 流程 如 图 7-2 所 示 。 

航空 客运 信息 挖掘 主要 包括 以 下 步骤 : 

1) 从 航空 公司 的 数据 源 中 进行 选择 性 抽取 与 新 增 数据 抽取 分 别 形 成 历史 数据 和 增 量 数据 。 

2) 对 1) 形成 的 两 个 数据 集 进行 数据 探索 分 析 与 预 处 理 ， 包 括 数据 缺失 值 与 异常 值 的 探索 分 析 ， 数 据 的 属性 规约 、 清 洗 和 变换 。 

3) 利用 2) 形成 的 已 完成 数据 预 处 理 的 建 模 数 据 ， 基 于 旅客 价值 LRFMC 模 型 进行 客户 分 群 ， 对 各 个 客户 群 进行 特征 分 析 ， 识 别 出 有 价值 的 客户 。 


4) 针对 模型 结果 得 到 不 同 价值 的 客户 ， 采 用 不 同 的 营销 手段 ， 提 供 定制 化 的 服务 。 


数据 探索 与 预 处 理 


基于 LRFMC 
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图 7-2 ”航空 客运 数据 挖 据 建 模 总 体 流 程 


7.2.1 数据 抽取 


以 2014 年 3 月 31 日 为 结束 时 间 ， 选 取 宽 度 为 两 年 的 时 间 段 作为 分 析 观 测 窗 口 ， 抽 取 观 测 窗口 内 有 乘机 记录 的 所 有 客户 的 详细 数据 形成 历史 数据 。 对 于 后 续 新 增 的 客户 详细 信息 ， 以 后 续 新 增 数据 中 最 新 
的 时 间 点 作为 结 来 时间， 采用 上 述 同 样 的 方法 进行 抽取 ， 形 成 增 量 数 据 。 


从 航空 公司 系统 内 的 客户 基本 信息 、 乘 机 信息 以 及 积分 信息 等 详细 数据 中 ， 根 据 未 次 飞行 日 期 (LAST_FLIGHT_DATE) ， 抽 取 2012 年 4 月 1 日 至 2014 年 3 月 31 日 内 所 有 乘客 的 详细 数据 ， 总 共 62988 条 记 
录 。 其 中 ， 包 含 了 如 会 员 卡号 、 入 会 时 间 、 性 别 、 年 龄 、 会 员 卡 级 别 、 工 作 地 城市 、 工 作 地 所 在 省 份 、 工 作 地 所 在 国家 、 观 测 窗口 的 结束 时 间 、 观 测 窗口 乘机 积分 、 观 测 窗 口 的 飞行 公里 数 、 观 测 窗 口内 的 
飞行 次 数 、 飞 行 时 间 、 平 均 乘 机 时 间 间 隔 、 平 均 折 扣 率 等 4 个 属性 。 


722 ”数据 探索 分 析 


本 案例 的 探索 分 析 是 对 数据 进行 缺失 值 分 析 与 异常 值 分 析 ， 分 析出 数据 的 规律 以 及 异常 值 。 通 过 对 数据 观察 ， 发 现 原始 数据 中 存在 票 价 为 空 值 ， 票 价 最 小 值 为 0、 折 扣 率 最 小 值 为 0、 总 飞行 公里 数 大 于 
0 的 记录 。 票 价 为 空 值 的 数据 可 能 是 客户 不 存在 乘机 记录 造成 。 其 他 的 数据 可 能 是 客户 乘坐 0 折 机 票 或 者 积分 名 换 造成 。 


查找 每 列 属性 观测 值 中 空 值 个 数 、 最 大 值 、 最 小 值 的 R 代 码 如 代码 清单 7-1 所 示 。 
代码 清单 7-1 数据 探索 分 析 代 码 


HHA EL Zy 

# 把 “数据 及 程序 ”文件 夹 复制 到 F 盘 下 ， 再 用 setwd 设 置 工作 空间 
setwd ("F: /数据 及 程序 /chapter7/ 示 例 程序 ") 

# 数 据 读 取 

datafile=read.csv i /data/air_data.csv', header=T) 
# 确 定 要 探索 分 析 的 变 

col=c (15: 18, 20: 29) # 去 掉 日 期 型 变量 

# 输 出 变量 最 值 、 缺 失 情 况 


summary (datafile [, col] ) 


# 代 码 详 见 : 示例 程序 /code/data_explore.R 


根据 上 面 的 代码 得 到 探索 结果 如 表 7-4 所 示 。 


表 7-4 数据 探索 分 析 结 果 表 


属性 名 称 | SUMYR1 | SUMYR2 | > | SEG KM SUM | AVG_DISCOUNT 
эшк — 3 | tm | | 0 | < 
м [о | o | | w | ИС 


7.2.3 ”数据 预 处 理 


本 案例 主要 采用 数据 清洗 、 属 性 规约 与 数据 变换 的 预 处 理 方法 。 


1. 数 据 清洗 
通过 数据 探索 分 析 ， 发 现 数据 中 存在 缺失 值 ， 票 价 最 小 值 为 0、 折 扣 率 最 小 值 为 0、 总 飞行 公里 数 大 于 0 的 记录 。 由 于 原始 数据 量 大 ， 这 类 数据 所 占 比 例 较 小 ， 对 于 问题 影响 不 大 ， 因 此 对 其 进行 丢弃 处 
理 。 具 体 处 理 方法 如 下 : 


` 丢弃 票 价 为 空 的 记录 ; 
弃 票 价 为 0、 平 均 折扣 率 不 为 0、 总 飞行 公里 数 大 于 0 的 记录 。 
使 用 R 对 满足 清洗 条 件 的 数据 进行 去 弃 ， 处 理 方法 为 满足 清洗 条 件 的 一 行 数据 全 部 丢弃 ， 其 代码 如 代码 清单 7-2 所 示 。 
代码 清单 7-2 ”数据 清洗 代码 


НН W TE ja] 

# 把 “数据 及 程序 ”文件 夹 复制 到 F 盘 下 ， 再 用 setwd 设 置 工作 空间 
setwd ("F: /数据 及 程序 /chapter7/ 示 例 程序 ") 

# 数 据 读 取 datafile=read.csv ('./data/air data.csv', he=T) 


HER ZMA ZER 

delet_na = datafile [-which (is.na (datafile$SUM_YR 1) |15.па (datafile$SUM YR 2 Ko 

# 丢 弃 票 价 为 0、 平 均 折扣 率 不 为 0、 总 飞行 公 里 数 大 于 0 的 记录 jndex = = ( (delet na$SUM YR 1 == 0 & delet na$SUM YR 2 == 0) * (delet na$avg discount ! = 0) * (delet na$SEG KM SUM > 0) ) 
de] ы = delet па [-which (index == 1), | 

# 保 存 清洗 后 的 数据 

cleanedfil deletdata 


* 代 码 详 见 : 示例 程序 /code/data_clean.R 


2. 属 性 规约 


原始 数据 中 属性 太 多 ， 根 据 航空 公司 客户 价值 LRFMC 模 型 ， 选 择 与 LRFMC 指 标 相关 的 6 个 属性 : FFP_DATE、LOAD TIME. FLIGHT COUNT, AVG DISCOUNT, SEG KM SUM、LAST ТО END, 
删除 与 其 不 相关 、 弱 相关 或 元 余 的 属性 ， 如 会 员 卡号 、 性 别 、 工 作 地 城市 、 工 作 地 所 在 省 份 、 工 作 地 所 在 国家 、 年 龄 等 属性 。 经 过 属性 选择 后 的 数据 集 ， 如 表 7-5 所 示 。 


表 7-5 属性 选择 后 的 数据 集 


LOAD_TIME FFP_DATE LAST TO END | FLIGHT COUNT | SEG KM SUM | AVG DISCOUNT 


1.02 
0. 76 
1. 27 
1. 02 


20143,31 
2014/3/31 
2014/3/31 
20147/3731 
201473731 
2014/3/31 
2014/3/31 
20147/3731 
2014/3/31 
2014/37/31 
201473731 
20147/3731 
20147/3731 
2014/37/31 
20147/3731 
2014/37/31 
20147/3731 
201473731 
20147/3731 
2014/3/31 


3. 数 据 变换 


2009/6/27 


С^ 


һә 


л |> [чл 


62259 


61160 


91011 


nan [ип [өз _ 
2332 [з | 6 [в _ 
a [в [өе | 7 _ 
алә [а [ е [зо _ 


数据 变换 是 将 数据 转换 成 “适当 的 ”格式 ， 以 适应 挖掘 任务 及 算法 的 需要 。 本 案例 中 主要 采用 的 数据 变换 方式 有 属性 构造 和 数据 标准 化 。 


由 于 原始 数据 中 并 没有 直接 给 出 LRFMC 5 个 指标 ， 需 要 通过 原始 数据 提取 这 5 个 指标 ， 


L=LOAD_TIME-FFP_DATE 


会 员 入 会 时 间距 观测 窗口 结束 的 月 数 = 观 测 窗口 的 结束 时 间 - 入 会 时 间 (单位 : В) 


R=LAST_TO_END 


客户 最 近 一 次 乘坐 公司 飞机 距 观 测 窗 口 结束 的 月 数 = 最 后 一 次 乘机 时 间 有 至 


F=FLIGHT_COUNT 


客户 在 观测 窗口 内 乘坐 公司 飞机 的 > 


M=SEG_KM_SUM 


闪 数 = 观测 窗口 内 的 飞行 次 数 (单位 : 


具体 的 计算 方式 如 下 : 


见 察 窗口 末端 时 长 (单位 : H) 


次 ) 


客户 在 观测 时 间 内 在 公司 累计 的 飞行 里 程 = 观测 窗 口 的 总 飞行 公里 数 (单位 : 


C=AVG_DISCOUNT 


客户 在 观测 时 间 内 乘坐 舱位 所 对 应 的 折扣 系数 的 平均 值 = 平 均 折扣 率 (单位 : 


5 个 指标 的 数据 提取 后 ， 对 每 个 指标 数据 分 布 情况 进行 分 析 ， 其 数据 的 取 值 范围 如 表 7-6 所 示 。 从 表 中 数据 可 以 发 现 ，5 个 指标 的 取 值 范围 数据 差异 较 大 ， 为 了 消除 数量 
进行 标准 化 处 理 。 


属性 名 称 
最 小 值 
最 大 值 


公里 ) 


无 ) 


表 7-6 LRFMC 指 标 取 值 范围 


от | mn | r | w ` 


标准 差 标准 化 处 理 的 R 代 码 如 代码 清单 7-3 所 示 ，datafile 为 输入 数据 文件 ，zscoredata 为 标准 差 标准 化 后 数据 集 。 


代码 清单 7-3 ”标准 差 标准 化 


## 设 置 工作 空间 
# 把 “数据 及 程序 ”文件 夹 复制 到 F 盘 下 ， 再 用 setwd 设 置 工作 空间 


зема ("F: /数据 及 程序 /chapter7/ 示 例 程序 ") 


‚36 


1. 29 
0. 94 


K— 
ым 
Ыы 


豚 数据 带 来 的 景 
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# 数 据 读 取 
datafile=read.csv ('./data/zscoredata.csv', he=T) 


# 数 据 标 准 化 

zscoredfile=scale (datafile) 

colnames (zscoredfile) =c ("ZL", "ZR", "ZE", "ZM", "7С") 
# 数 据 写 入 

write.csv (zscoredfile, './tmp/zscoreddata.csv') 


* 代 码 详 见 : 示例 程序 /code/zscore_data.R 
标准 差 标准 化 处 理 后 ， 形 成 ZL、ZR、ZF、ZM、ZC 5 个 属性 的 数据 ， 如 表 7-7 所 示 。 


Ж7-7 标准 化 处 理 后 的 数据 集 


ООо» [ож — | oo _ 


0.312 — 0. 896 О. 498 0. 954 — 0. 500 


* 数 据 详 见 : 示例 程序 /data/zscoreddata.csv 


7.24 ”模型 构建 
客户 价值 分 析 模 型 构建 主要 由 两 个 部 分 构成 ， 第 一 部 分 根据 航空 公司 客户 五 个 指标 的 数据 ， 对 客户 作 聚 类 分 群 ， 第 二 部 分 结合 业务 对 每 个 客户 群 进行 特征 分 析 ， 分 析 其 客户 价值 ， 并 对 每 个 客户 群 进行 
排名 。 


1. 客 户 聚 类 


А 


采用 K-Means 聚 类 算法 对 客户 数据 进行 客户 分 群 ， 聚 成 五 类 (需要 结合 业务 的 理解 与 分 析 来 确定 客户 的 类 别 数量 ) 。 
利用 K-Means 聚 类 算法 进行 客户 分 群 的 R 代 码 如 代码 清单 7-4 所 示 ， 输 入 数据 集 为 inputfile， 聚 类 类 别 数 为 k=5， 输 出 结果 type 为 每 个 样本 对 应 的 类 别 号 ，centervec 为 聚 类 中 心 向 量 。 


代码 清单 7-4 KK-Means 聚 类 算 


++ Ж T E ja] 

# 把 “数据 及 程序 ”文件 夹 复制 到 F 盘 下 ， 再 用 setwd 设 置 工作 空间 
setwd ("F: /数据 及 程序 /chapter7/ 示 例 程序 ") 

# 数 据 读 取 

inputfile=read.csv ('./data/zscoreddata.csv', he=T) 
# 聚 类 分 析 

result=kmeans (inputfile, 5) 

# 结 果 输 出 

type=resultMYMtype 

table (type) # 查 看 类 别 分 布 

centervec=resultMYMcenter 


< 


* 代 码 详 见 : 示例 程序 /code/kmeans_cluster.R 


对 数据 进行 聚 类 分 群 的 结果 如 表 7-8 所 示 。 


表 7-8 客户 聚 类 结果 


聚 类 类 别 聚 类 个 数 | 
z 


* 由 于 KK-Means 聚 类 是 随机 选择 类 标号 ， 因 此 上 机 实验 得 到 结果 中 的 类 标号 可 能 与 此 不 同 


针对 聚 类 结果 进行 特征 分 析 ， 如 图 7-3 所 示 ， 其 中 客户 群 1 在 F、M 属 性 上 最 大 ， 在 R 属 性 上 最 小 ;客户 群 2 在 L 属 性 上 最 大 ; 客户 群 3 在 R 属 性 上 最 大 ， 在 F、M 属 性 上 最 小 ; 客户 群 4 在 L、C 属 性 上 最 小 ; 
客户 群 5 在 C 属 性 上 最 大 。 结 合 业务 分 析 ， 通 过 比较 各 个 指标 在 群 间 的 大 小 对 某 一 个 群 的 特征 进行 评价 分 析 。 例 如 ， 客 户 群 1 在 F、M 属 性 上 最 大 ， 在 R 属 性 上 最 小 ， 因 此 可 以 说 F[、M、R 在 客户 群 1 上 是 优势 
特征 ; 以 此 类 推 ，F、M、R 在 客户 群 3 上 是 劣势 特征 。 从 而 总 结 出 每 个 群 的 优势 和 弱势 特征 ， 具 体 结果 如 表 7-9 所 示 。 


ЁС 


客户 群 3 
— {РАНА 
客户 群 5 


图 7-3 客户 群 特征 分 析 图 
表 7-9 客户 群 特征 描述 表 


RFJ 优势 特征 弱势 特征 


йз | © | R | F | шн 


* 注 : 正常 字体 表示 最 大 值 ， 加 粗 字 体 表示 次 大 值 ， 斜 体 字体 表示 最 小 值 ， 带 下 刘 线 的 字体 表示 次 小 值 


由 上 述 特 征 分 析 的 图 表 说 明 每 个 客户 群 都 有 显著 不 同 的 表现 特征 ， 基 于 该 特征 描述 ， 本 案例 定义 五 个 等 级 的 客户 类 别 : 重要 保持 客户 、 重 要 发 展 客户 、 重 要 挽留 客户 、 一 般 客户 、 低 价值 客户 。 他 们 之 
间 的 区 别 如 图 7-4 所 示 ， 其 中 每 种 客户 类 别 的 特征 如 下 : 


“重要 保持 客户 :这 类 客户 的 平均 折扣 率 (C) 较 高 一般 所 乘 航班 的 舱位 等 级 较 高 ) ， 最 近来 华 过 本 公司 航班 (R) A, REBRA (F) ALE (M) 较 高 。 他 们 是 航空 公司 的 高 价值 客户 ， 是 最 为 理 
想 的 客户 类 型 ， 对 航空 公司 的 页 献 最 大 ， 所 占 比 例 却 较 小 。 航 空 公司 应 该 优先 将 资源 投放 到 他 们 身上 ， 对 他 们 进行 差异 化 管理 和 一 对 一 营销 ， 提 高 这 类 客户 的 忠诚 度 与 满意 度 ， 尽 可 能 延长 这 类 客户 的 宇 
平 消费 。 


Ii 
+ 


` 重要 上 友 展 客户 : 这 类 客户 的 平均 折扣 率 (C) 较 高 ， 最 近 乘 坐 过 本 公司 航班 (R) 低 ， 但 乘坐 的 次 数 (F) 或 里 程 (M) 较 低 。 这 类 客户 入 会 时 长 (L) 短 ， 他 们 是 航空 公司 的 潜在 价值 客户 。 虽 然 这 类 
客户 的 当前 价值 并 不 是 很 高 ， 但 却 有 很 大 的 发 展 潜力 。 航 空 公司 要 努力 促使 这 类 客户 增加 在 本 公司 的 乘机 消费 和 合作 伙伴 处 的 消费 ， 也 就 是 增加 客户 的 钱包 份额 。 通 过 客户 价值 的 提升 ， 加 强 这 类 客户 的 满 
意 度 ， 提 高 他 们 转向 竞争 对 手 的 转移 成 本 ,使 他 们 逐渐 成 为 公司 的 患 诚 客户 。 


重要 挽留 客户 : 这 类 客户 过 去 所 乘 航班 的 平均 折扣 率 (C) 、 乘 坐 的 次 数 (F) 或 者 里 程 (M) 较 高 ， 但 是 较 长 时 间 已 经 没有 乘坐 过 本 公司 航班 (R) 高 或 是 乘坐 频率 变 小 。 他 们 客户 价值 变化 的 不 确定 


性 很 高 。 由 于 这 些 客 户 衰退 的 原因 各 不 相同 ， 所 以 掌握 客户 的 最 新 信息 、 维 持 与 客户 的 互动 就 显得 尤为 重要 。 航 空 公司 应 该 根据 这 些 客户 的 最 近 消 费时 间 、 消 费 次 数 的 变化 情况 ， 推 测 客户 消费 的 异动 状 
况 ， 并 列 出 客户 名 单 ， 对 其 重点 联系 ,采取 一 定 的 营销 手 段 ， 延 长 客户 的 生命 周期 。 


` 一 般 客户 与 低 价 值 客户 : 这 类 客户 所 乘 航 班 的 平均 折扣 率 (C) 很 低 ， 较 长 时 间 没 有 乘坐 过 本 公司 航班 (R) 高 ， 乘 坐 的 次 数 (F) ARE (M) 较 低 ， 入 会 时 长 (L) 短 。 他 们 是 航空 公司 的 一 般 客户 
与 低 价 值 客 户 ， 可 能 是 在 航空 公司 机 票 打 折 促销 时 ， 才 会 乘坐 本 公司 航班 。 


般 客户 与 
低 价值 客户 


重要 保持 客户 | 重要 发 展 客户 | 重要 挽留 客户 


平均 折扣 率 
(C) 


Дх ЕЛЕ pf Ж 
公司 航班 
(В) 


乘坐 的 次 数 
(F) 


图 7-4 客户 类 别 的 特征 分 析 
其 中 ， 重 要 发 展 客户 、 重 要 保持 客户 、 重 要 挽留 客户 这 三 类 重要 客户 分 别 可 以 归 入 客户 生命 周期 管理 的 发 展期 、 稳 定期 、 衰 退 期 三 个 阶段 。 


根据 每 种 客户 类 型 的 特征 ， 对 各 类 客户 群 进行 客户 价值 排名 ， 其 结果 如 表 7-10 所 示 。 针 对 不 同类 型 的 客户 群 提供 不 同 的 产品 和 服务 ， 提 升 重要 发 展 客户 的 价值 、 稳 定 和 延长 重要 保持 客户 的 高 水 平 消 
费 、 防 学 重要 挽留 客户 的 流失 并 积极 进行 天 系 恢复 。 


表 7-10 客户 群 价值 排名 


排名 含义 

保持 客 户 
EPBS | 2 | 重要 发 展 客户 
重要 挽留 用 户 
Же ра 


客户 群 :3 低 价值 客 


本 模型 采用 历史 数据 进行 建 模 ， 随 着 时 间 的 变化 ， 分 析 数 据 的 观测 窗口 也 在 变换 。 因 此 ， 对 于 新 增 客户 详细 信息 ， 考 虑 业务 的 实际 情况 ， 该 模型 建议 每 一 个 月 运行 一 次 ， 对 其 新 增 客户 信息 通过 聚 类 中 
心 进行 判断 ， 同 时 对 本 次 新 增 客 户 的 特征 进行 分 析 。 如 果 增 量 数据 的 实际 情况 与 判断 结果 差异 大 ， 需 要 业务 部 门 重点 关注 ， 查 看 变化 大 的 原因 以 及 确认 模型 的 稳定 性 。 如 果 模 型 稳定 性 变化 大 ， 需 要 重新 训 


练 模型 进行 调整 。 目前， 模型 进行 重新 训练 的 时 间 没 有 统一 标准 ， 大 部 分 情况 都 是 根据 经 验 来 决定 。 根 据 经 验 建 议 : 每 隔 半年 训练 一 次 模型 比较 合适 。 
3. 模 型 应 用 
根据 对 各 个 客户 群 进行 特征 分 析 ， 采 取 下 面 的 一 些 营销 手段 和 策略 ， 为 航空 公司 的 价值 客户 群 管理 提供 参考 。 
(1) 会 员 的 升级 与 保级 


航空 公司 的 会 员 可 以 分 为 白金 卡 会 员 、 金 卡 会 员 、 银 卡 会 员 、 普 通 卡 会 员 ， 其 中 非 普通 卡 会 员 可 以 统称 为 航空 公司 的 精英 会 员 。 虽 然 各 个 航空 公司 都 有 自己 的 特点 和 规定 ， 但 会 员 制 的 管理 方法 是 大 同 
小 异 的 。 成 为 精英 会 员 一 般 都 是 要 求 在 一 定时 间 内 (如 一 年 ) 积累 一 定 的 飞行 里 程 或 航 段 ， 达 到 这 种 要 求 后 就 会 在 有 效 期 内 (通常 为 两 年 ) 成 为 精英 会 员 ， 并 享受 相应 的 高 级 别 服务 。 有 效 期 快 结束 时 ， 根 
据 相 关 评价 方法 确定 客户 是 否 有 资格 继续 作为 精英 会 员 ， 然 后 对 该 客户 进行 相应 地 升级 或 降级 。 


然而 ， 由 于 许多 客户 并 没有 意识 到 或 根本 不 了 解 会 员 升 级 或 保级 的 时 间 与 要 求 (相关 的 文件 说 明 往 往复 杂 且 不 易 理 解 ) ， 经 常 在 评价 期 过 后 才 发 现 自 己 其 实 只 差 一 点 就 可 以 实现 升级 或 保级 ， 却 错过 了 
机 会 ， 使 之 前 的 里 程 积 囚 白白 损失 。 同 时 ， 这 种 认 知 还 可 能 导致 客户 的 不 满 ， 干脆 放 弃 在 本 公司 的 消费 。 


因此 ， 航 空 公司 可 以 在 对 会 员 升 级 或 保级 进行 评价 的 时 间 点 之 前 ， 对 那些 接近 但 尚未 达到 要 求 的 较 高 消费 客户 进行 适当 提醒 甚至 采取 一 些 促销 活动 ， 刺 激 他 们 通过 消费 达到 相应 标准 。 这 样 既 可 以 获得 
收益 ， 同 时 也 提高 了 客户 的 满意 度 ， 增 加 了 公司 的 精英 会 员 。 


(2) 首次 兄 换 


航空 公司 常 旅客 计划 中 最 能 够 吸引 客户 的 内 容 就 是 客户 可 以 通过 消费 积累 的 里 程 来 品 换 免票 或 免费 升 舱 等 。 各 个 航空 公司 都 有 一 个 首次 品 换 标准 ， 也 就 是 当 客户 的 里 程 或 航 段 积累 到 一 定 程 度 时 才 可 以 
实现 第 一 次 兄 换 ， 这 个 标准 会 高 于 正常 的 里 程 铝 换 标准 。 但 是 很 多 公司 的 里 程 积累 随 着 时 间 会 进行 一 定 地 削减 ， 如 有 的 公司 会 在 年 末 对 该 年 积累 的 里 程 进行 折 半 处 理 。 这 样 会 导致 许多 不 了 解 情况 的 会 员 
白 损 失 自己 好 不 容易 积累 的 里 程 ， 甚 至 总 是 难以 实现 首次 兄 换 。 同 样 ， 这 也 会 引起 客户 的 不 满 或 流失 。 可 以 采取 的 措施 是 从 数据 库 中 提取 出 接近 但 尚未 达到 首次 名 换 标准 的 会 员 ， 对 他 们 进行 提醒 或 促销 ， 
使 他 们 通过 消费 达到 标准 。 一 旦 实现 了 首次 部 换 ， 客 户 在 本 公司 进行 再 次 消费 品 换 就 比 在 其 他 公司 进行 史 换 要 容易 许多 ， 在 一 定 程度 上 等 于 提高 了 转移 的 成 本 。 另 外 ， 在 一 些 特殊 的 时 间 点 (如 里 程 折 半 的 
时 间 点 ) 之 前 可 以 给 客户 一 些 提醒 ， 这 样 可 以 增加 客户 的 满意 度 。 


(3) 交叉 销售 


通过 上 发 行 联 名 卡 等 与 非 航 空 类 企业 的 合作 ， 使 客户 在 其 他 企业 的 消费 过 程 中 获得 本 公司 的 积分 ， 增 强 与 公司 的 联系 ， 提 高 他 们 的 忠诚 度 。 例 如 ， 可 以 查看 重要 客户 在 非 航空 类 合作 伙伴 处 的 里 程 积 累 情 
况 ， 找 出 他 们 习惯 的 里 程 积累 方式 (是否 经 常 在 合作 伙伴 处 消费 、 更 喜欢 消费 哪些 类 型 合作 伙伴 的 产品 ) ， 对 他 们 进行 相应 促销 。 


客户 识别 期 和 发 展期 为 客户 关系 打下 基石 ， 但 是 这 两 个 时 期 带 来 的 客户 关系 是 短暂 的 、 不 稳定 的 。 企 业 要 获取 长 期 的 利润 ， 必 须 具 有 稳定 的 、 高 质量 的 客户 。 保 持 客户 对 于 企业 是 至 天 重要 的 ， 不 仪 因 
为 争取 一 个 新 客户 的 成 本 远 远 高 于 维持 老 客 户 的 成 本 ， 更 重要 的 是 客户 流失 会 造成 公司 收益 的 直接 损失 。 因 此 ， 在 这 一 时 期 ， 航 空 公司 应 该 努力 维系 客户 关系 水 平 ， 使 之 处 于 较 高 的 水 准 ， 最 大 化 生命 周期 
内 公司 与 客户 的 互动 价值 ， 并 使 这 样 的 高 水 平 尽 可 能 延长 。 对 于 这 一 阶段 的 客户 ， 主 要 应 该 通过 提供 优质 的 服务 产品 和 提高 服务 水 平 来 提高 客户 的 满意 度 。 通 过 对 常 旅客 数据 库 的 数据 挖 气 、 进 行 客户 细 
分 ， 可 以 获得 重要 保持 客户 的 名 单 。 这 类 客户 一 般 所 乘 航 班 的 平均 折扣 率 (С) 较 高 ， 最 近 乘 坐 过 本 公司 航班 (R) 低 ， 乘 坐 的 次 数 (F) REE (M) 也 较 高 。 他 们 是 航空 公司 的 价值 客户 ， 是 最 为 理想 的 
客户 类 型 ， 对 航空 公司 的 贡献 最 大 ， 所 占 比 例 却 比较 小 。 航 空 公司 应 该 优先 将 资源 投放 到 他 们 身上 ， 对 他 们 进行 差异 化 管理 和 一 对 一 营销 ， 提 高 这 类 客户 的 忠诚 度 与 满意 度 ， 尽 可 能 延长 这 类 客户 的 高 水 平 
消费 。 


[1] 罗 亮 生 ， 张 文 欣 .基于 常 旅客 数据 库 的 航空 公司 客户 细 分 方法 研究 J] .现代 商业 ，2008， (23) : 54, 55. 
[2] 罗 亮 生 ， 张 文 欣 .基于 常 旅客 数据 库 的 航空 公司 客户 细 分 方法 研究 J] .现代 商业 ，2008， (23) : 54, 55. 


B] 电子 商务 网 站 RFM 分 析 [EB/OL ] .http://www.skynuo.com/Seo_detaill131.Html/. 


73 ”上 机 实验 


1. 实 验 目 的 
了解 玉 -Means 聚 类 算法 在 客户 价值 分 析 实 例 中 的 应 用 。 


. 利用 RR 实现 数据 scale 标 准 化 以 及 模型 的 K-Means 聚 类 过 程 。 


依据 航空 公司 客户 价值 分 析 的 LRFMC 模 型 提取 客户 信息 的 LRFMC 指 标 。 对 其 进行 标准 差 标 准 化 并 保存 后 ， 采 用 K-Means 算 法 完成 客户 的 聚 类 ,分析 每 类 的 客户 特征 ， 从 而 获得 每 类 的 客户 价值 。 
- 利用 R 程 序 ， 读 入 LRFMC 指 标 文件 ， 分 别 计算 各 个 指标 的 均值 与 其 标准 差 ， 使 用 标准 差 标准 化 公式 完成 LRFMC 指 标的 标准 化 ， 并 将 标准 化 后 的 数据 进行 保存 。 
` 编写 RR 程序， 完成 客户 的 K-Means 聚 类 ， 获 得 聚 类 中 心 与 类 标号 。 输 出 聚 类 中 心 的 特征 图 ， 并 统计 每 个 类 别 的 客户 数 。 
3. 实 验方 法 与 步骤 
(1) 实验 一 
XİL, R Е. М, G 五 个 指标 进行 scale 标 准 化 。 
1) 打开 R， 使 用 read.csv 函 数 将 待 标准 差 标 准 化 的 数据 “上 机 实验 /data/zscoredata.csv” 读 入 到 R 中 。 
2) 使 用 mean 与 sd 国 数 ， 获 得 L、R、F、M、< 5 个 指标 的 平均 值 与 标准 差 。 
3) 根据 scale 标 准 化 公式 zj= (xij-xi) /si， 其 中 zi 是 标准 化 后 的 变量 值 ; xi 是 实际 变量 值 ，xi 为 变量 的 算术 平均 值 ，s 是 变量 的 标准 差 ， 进 行 标准 差 标准 化 。 
(2) 实验 二 


1) 使 用 read.csv 国 数 将 航空 数据 预 处 理 后 的 数据 读 入 R 工 作 空间 ， 截 取 最 后 5 列 数据 作为 K-Means 算 法 的 输入 数据 。 
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2) 调用 kmeans 函 数 对 1) 中 的 数据 进行 聚 类 ， 得 


INNO 


3) 根据 聚 类 标号 统计 计算 得 到 每 个 类 别 的 客户 数 ， 同 时 根据 聚 类 中 心 点 向 量 画 出 客户 聚 类 中 心 向 量 图 并 保存 。 


1) R 中 有 函数 scale () 可 以 直接 进行 标准 差 标准 化 ， 但 封装 后 过 于 简单 ， 不 利于 学 习 ， 首 次 进行 标准 差 标准 化 时 请 按 以 上 步骤 自行 完成 ， 以 熟悉 算法 。 
2) R 中 kmeans 函 数 中 的 初始 聚 类 中 心 可 以 使 用 什么 算法 得 到 ”默认 是 什么 算法 ? 


3) 使 用 不 同 的 预 处 理 对 原始 数据 进行 变换 ， 再 使 用 K-Means 算 法 进行 聚 类 ， 对 比 聚 类 结果 ， 分 析 不 同 数据 预 处 理 对 K-Means 算 法 的 影响 。 


74 拓展 思考 


本 章 主 要 针对 客户 价值 进行 分 析 ， 但 客户 流失 并 没有 提出 具体 的 分 析 。 由 于 在 航空 客户 关系 管理 中 客户 流失 的 问题 未 被 重视 ， 故 对 航空 公司 造成 了 巨大 的 损害 。 客 户 流失 对 利润 增长 造成 的 负面 影响 非 
常 大 ， 仪 次 于 公司 规模 、 市 场 占有 率 、 单 位 成 本 等 因素 的 影响 。 客 户 与 航空 公司 之 间 的 关系 越 长 久 ， 给 公司 带 来 的 利润 就 会 越 高 。 因 此 ， 流 失 一 个 老 客 户 比 获 得 一 个 新 客户 对 公司 的 损失 更 大 。 要 获得 新 客 
户 ， 需 要 在 销售 、 市 场 、 广 告 科 人员 工资 上 花费 很 多 的 费用 ， 但 大 多 数 新 客户 产生 的 利润 还 不 如 那些 流失 的 老 客 户 多 ，。 

因此 ， 在 国内 航空 市 场 竞争 日 益 激烈 的 背景 下 ， 航 空 公司 在 客户 流失 方面 应 该 引起 足够 的 重视 。 如 何 改善 流失 问题 ， 继 而 提高 客户 满意 度 、 上 忠诚 度 是 航空 公司 维护 自身 市 场 并 面 对 激 烈 竞 争 的 一 件 大 
事 ， 客 户 流失 分 析 将 成 为 帮助 航空 公司 开展 持续 改进 活动 的 指南 。 

客户 流失 分 析 可 以 针对 目前 老 客 户 进行 分 类 预测 。 针 对 航空 公司 客户 信息 数据 ( 见 表 7-2) ， 可 以 进行 老 客 户 以 及 客户 类 型 的 定义 (其 中 将 飞行 次 数 大 于 6 次 的 客户 定义 为 老 客户 ， 已 流失 客户 定义 为 : 
第 二 年 飞行 次 数 与 第 一 年 飞行 次 数 比 例 小 于 50% 的 客户 ; 准 流失 客户 定义 为 : 第 二 年 飞行 次 数 与 第 一 年 飞行 次 数 比 例 在 [50%，90%) 内 的 客户 ; 未 流失 客户 定义 为 : 第 二 年 飞行 次 数 与 第 一 年 飞行 次 数 比 
例 大 于 90% 的 客户 ) 。 同 时 ， 需 要 选取 客户 信息 中 的 关键 属性 ， 如 会 员 卡 级 别 、 客 户 类 型 (已 流失 、 准 流失 、 未 流失 ) 、 平 均 乘机 时 间 间 隔 、 平 均 折扣 率 、 积 分 兄 换 次 数 等 。 随 机 选取 数据 的 80% 作 为 分 类 
的 训练 样本 ， 剩 余 的 20% 作 为 测试 样本 。 构 建 客户 的 流失 模型 ， 运 用 模型 预测 未 来 客户 的 类 别 归 属 (未 流失 、 准 流失 、 已 流失 ) 。 


75 放生 


本 章 结合 航空 公司 客户 价值 分 析 的 案例 ， 重 点 介绍 了 数据 挖掘 算法 中 K-Means 聚 类 算法 在 实际 案例 中 的 应 用 。 针 对 客户 价值 识别 传统 的 RF M 模 型 的 不 足 ， 采 用 K-Means 算 法 进行 分 析 ， 并 详细 地 描述 
了 数据 挖掘 的 整个 过 程 ， 对 其 相应 的 算法 提供 了 R 语 言 上 机 实验 。 


第 8 章 ”中 医 证 型 天 联 规则 挖掘 


8.1 ”背景 与 挖掘 目标 


恶性 肿瘤 俗称 癌症 ， 当 前 已 成 为 危害 我 国 居民 生命 健康 的 主要 杀手 。 应 用 中 医药 治疗 恶性 肿瘤 已 成 为 公认 的 综合 治疗 的 方法 之 一 ， 且 中 医药 治疗 乳腺 癌 有 着 广泛 的 适应 性 和 独特 的 优势 。 从 整体 出 发 ， 
调整 机 体 气 血 、 阴 阳 、 脏 腑 功能 的 平衡 ， 根 据 不 同 的 临床 证 候 进 行 辨证 论 治 。 确 定 “ 先 证 而 治 ” 的 方向 : 即 后 续 证 侯 尚未 出 现 之 前 ， 需 要 截断 恶化 病情 的 哪些 后 续 证 侯 ， 发 现 中 医 症状 间 的 关联 关系 和 诸多 
症状 间 的 规律 性 ， 并 且 依据 规则 分 析 病 因 、 预 测 病情 发 展 以 及 为 未 来 临床 诊治 提供 有 效 借鉴 。 这 样 一 来 ， 患 者 在 治疗 的 过 程 中 ， 医 生 可 以 有 效 地 减少 西医 以 及 化 疗 治 疗 的 毒 副作用 ， 为 后 续 治疗 打下 基础 。 
同时 ， 还 有 利于 乳腺 癌 患 者 术 后 体质 的 恢复 、 生 存 质 量 的 改善 ， 有 利于 提高 患者 的 生存 概率 。 


三 阴 乳 腺 癌 患 者 的 临床 患 病 信息 如 表 8-1 所 示 ， 由 信息 整理 而 成 的 原始 数据 如 表 8-2 所 示 ， 请 根据 这 些 数 据 实现 以 下 目标 : 
1) 借助 三 阴 乳 腺 癌 患 者 的 病理 信息 ， 挖 所 患者 的 症状 与 中 医 证 型 之 间 的 关联 关系 ; 


2) 对 截断 治疗 提供 依据 ， 挖 掘 潜 性 证 素 。 
表 8-1 原始 属性 表 
#5 属性 名 称 属性 朱 述 
Al; =30 2; A2; 31 -40 Z; АЗ: 41 ~ 50 ж; А4. 51 ~ 60 2; А5. 61 ~ 70 
G, Аб. 271 2 
аб: 271 > 


| 实际 年 龄 


2 | 发 病 年 具 


F5 属性 摘 述 
3 СЇ. =<122⁄; С2. 13-154; C3: =16 2 
4 D1， 月 经 规律 ，D2: 月 经 先期 03. 月 经 后 期 ，D4， 月 经 先后 不 定期 
5 Y: ж; N: F 
б 是 否 绝经 Y: ж; N: @ 

64 ДЕАШ ШЕЛ 总 分 40 分 
65 HURE ИЕА) 总 分 44 分 
66 冲 任 失调 证 得 分 总 分 41 分 
67 气 血 两 虚 证 得 分 轧 分 43 分 
68 脾胃 虚弱 证 得 分 А77 43 分 
69 RFF BH НЕШЕ А27 38 27 
70 TNM 分 期 НІ: ]; HR: H; НЗ: M; H4; IV 


l. 无 转 称 : ВОО; 2. 小 于 等 于 3 年 BUL; 3. 大 于 3 年 小 于 等 于 5 4E. В, 


全 F Г 4E ар ар 
7] 确诊 后 几 年 发 现 转移 4. 大 于 5 年 ，BU3 


12 转移 部 位 Rl: В; R2: 肺 ，R3: DW; R4: HF; R5: H b; BO: 无 转移 
73 病程 阶段 51: 围 手术 期 ;，S2: 围 化 疗 期 ，S3; 围 放 疗 期 ，S4: 巩固 期 


表 8-2 原始 数据 表 
发 病 


是 否 | 是 否 ИЕ ы 
年 龄 | 年龄 | 年龄 痛经 | 绝经 | 年 期 胎 
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зю a а е о ы а а а 
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年 龄 | 哺乳 | 时 间 
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8.1” 育 景 与 挖掘 目标 


恶性 肿瘤 俗称 癌症 ， 当 前 已 成 为 危害 我 国 居 民生 命 健康 的 主要 杀手 。 应 用 中 医药 治疗 恶性 肿瘤 已 成 为 公认 的 综合 治疗 的 方法 之 一 ， 且 中 医药 治疗 乳腺 癌 有 着 广泛 的 适应 性 和 独特 的 优势 。 从 整体 出 发 ， 
调整 机 体 气 血 、 阴 阳 、 脏 腑 功能 的 平衡 ， 根 据 不 同 的 临床 证 候 进 行 辨证 论 治 。 确 定 “ 先 证 而 治 ”的 方向 : 即 后 续 证 侯 尚未 出 现 之 前 ， 需 要 截断 恶化 病情 的 哪些 后 续 证 侯 ， 发 现 中 医 症状 间 的 关联 关系 和 诸多 
症状 间 的 规律 性 ， 并 且 依据 规则 分 析 病 因 、 预 测 病情 发 展 以 及 为 未 来 临床 诊治 提供 有 效 借鉴 。 这 样 一 来 ， 患 者 在 治疗 的 过 程 中 ， 医 生 可 以 有 效 地 减少 西医 以 及 化 疗 治 疗 的 毒 副作用 ， 为 后 续 治疗 打下 基础 。 
同时 ， 还 有 利于 乳腺 癌 患 者 术 后 体质 的 恢复 、 生 存 质 量 的 改善 ， 有 利于 提高 患者 的 生存 概率 。 


三 阴 乳 腺 癌 患 者 的 临床 患 病 信息 如 表 8-1 所 示 ， 由 信息 整理 而 成 的 原始 数据 如 表 8-2 所 示 ， 请 根据 这 些 数据 实现 以 下 目标 : 
1) 借助 三 阴 乳 腺 癌 患 者 的 病理 信息 ， 挖 所 患者 的 症状 与 中 医 证 型 之 间 的 关联 关系 ; 


2) 对 截断 治疗 提供 依据 ， 挖 掘 潜 性 证 素 。 


表 8-1 原始 属性 表 


F5 属性 名 称 Jš EE a Ë 


ү А1. =30 22, А2. 31-40 22, АЗ. 41-50 22, A4; 51-60 32; А5. 61 ~ 70 
И a P, Аб: 271 Ж 


а: <30 57; а2; 31-4027, аЗ; 41 ~ 50 22; a4; 51-6027; a5; 61 ~ 70 Z 


2 | 发 病 年 具 T 


F5 属性 摘 述 
3 СЇ. =<122⁄; С2. 13-154; C3: =16 2 
4 D1， 月 经 规律 ，D2: 月 经 先期 03. 月 经 后 期 ，D4， 月 经 先后 不 定期 
5 Y: ж; N: F 
б 是 否 绝经 Y: ж; N: @ 

64 ДЕАШ ШЕЛ 总 分 40 分 
65 HURE ИЕА) 总 分 44 分 
66 冲 任 失调 证 得 分 总 分 41 分 
67 气 血 两 虚 证 得 分 轧 分 43 分 
68 脾胃 虚弱 证 得 分 А77 43 分 
69 RFF BH НЕШЕ А27 38 27 
70 TNM 分 期 НІ: ]; HR: H; НЗ: M; H4; IV 


l. 无 转 称 : ВОО; 2. 小 于 等 于 3 年 BUL; 3. 大 于 3 年 小 于 等 于 5 4E. В, 


全 F Г 4E ар ар 
7] 确诊 后 几 年 发 现 转移 4. 大 于 5 年 ，BU3 


12 转移 部 位 Rl: В; R2: 肺 ，R3: DW; R4: HF; R5: H b; BO: 无 转移 
73 病程 阶段 51: 围 手术 期 ;，S2: 围 化 疗 期 ，S3; 围 放 疗 期 ，S4: 巩固 期 


表 8-2 原始 数据 表 
发 病 


是 否 | 是 否 ИЕ ы 
年 龄 | 年龄 | 年龄 痛经 | 绝经 | 年 期 胎 
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шнш м [ы eaa а [ү [+ [т [т [и у еи о 
шшш м [Га [в [а [хх а [ү [+ [т [т [и [ү [и и а 
жюню з [Га [в [ү [ү [ү [ү [з [т [э ml nl 
ваю w |o |а [а [х у [ү [т [1 [© [= [к ае о 
знаю! з [Гө [шю [а [ү [ү [ү [ү [т [т [о [ж [к мше [= 
ваю [а [ы [« [к [ү [ү [ү [т [т [о ау ы е ос 
omo в [ы [ю [= [ү [ү [ү [Үү |» [т [т mlm 
зю ә |o | а у а а а оа аще о 
зю a а е о ы а а а 


B = 1 


年 龄 | 哺乳 | 时 间 


= | | = 


= = | | | = 


ЕЕЕ 
наза ав а | 
od | o | mo ln 
Tr 


ДЕЕ 

БЕ 
x š 日 

D = | 
| | 


— 
ki 
— 


— 
ii 
Гы 


bJ 
5 
+. 
с 
ә 
名 
ВГ 
ШЕ 
[s 
十 
ПЕ 
КО гә 


82 分析 万 法 与 过 程 


由 于 患者 在 转手 术 期 、 围 化 疗 期 、 围 放疗 期 和 内 分 泌 治疗 期 等 各 个 病程 阶段 ， 基 本 都 会 出 现 特定 的 临床 症状 ， 故 而 可 以 运用 中 医 截断 疗法 进行 治疗 ， 在 辨 病 的 基础 上 围绕 各 个 病程 的 特殊 证 候 先 证 而 


。 截 断 扭转 的 主要 观点 是 强调 早期 治疗 ， 力 图 快速 控制 病情 ， 截 断 病 情 收 变 深入 ， 扭 转 阻止 疾病 恶化 站 。 


目前 ， 医 学 上 患者 的 临床 病理 信息 大 部 分 都 存在 纸张 上 ， 包 含 了 患者 的 基本 信息 、 具 体 患 病 信息 等 ， 很 少 会 将 患者 的 患 病 信息 存放 于 系统 中 ， 因 此 进行 数据 分 析 时 会 面临 数据 缺乏 的 情况 。 针 对 这 种 状 
况 ， 本 章 采 用 问卷 调查 的 方式 收集 数据 。 运 用 数据 挖掘 技术 对 收集 的 数据 进行 数据 探索 与 预 处 理 ， 形 成 建 模 数据 。 采 用 关联 规则 算法 ， 挖 气 各 中 医 证 素 与 乳腺 癌 TNM 分 期 之 间 的 关系 ， 其 中 乳腺 癌 TNM 分 


期 是 乳腺 癌 分 期 基本 原则 ， 工 期 较 轻 ，IV 期 较 严 重 。 探 索 不 同 分 期 阶段 的 三 阴 乳 腺 癌 患 者 的 中 医 证 素 分 布 规 律 ， 以 及 截断 病变 发 展 、 先 期 干预 的 治疗 思路 ， 指 导 三 阴 乳 腺 癌 的 中 医 临 床 
本 次 数据 挖掘 建 模 的 总 体 流程 如 图 8-1 所 示 。 
中 医 证 型 天 联 规则 挖掘 主要 包括 以 下 步骤 : 
1) 以 问卷 调查 的 方式 对 数据 进行 收集 ， 并 将 问卷 信息 整理 成 原始 数据 ; 
2) 对 原始 数据 集 进行 数据 预 处 理 ， 包 括 数 据 清洗 、 属 性 规约 、 数 据 变换 ; 
3) 利用 2) 形成 的 建 模 数 据 ， 采 用 关联 规则 算法 ， 调 整 模型 输入 参数 ， 获 取 各 中 医 证 素 与 乳腺 癌 TNM 分 期 之 间 的 关系 ; 


4) 结合 实际 业务 ， 对 模型 结果 进行 分 析 ， 且 将 模型 结果 应 用 于 实际 业务 中 ， 最 后 输出 关联 规则 结果 。 


问卷 调查 


则 算法 建 模 


模型 优化 


图 8-1 ”中医 证 型 关联 规则 挖掘 模型 总 体 流程 图 


8.2.1 数据 获取 


本 案例 采用 调查 问卷 的 形式 对 数据 进行 搜集 ， 数 据 获取 的 具体 过 程 如 下 : 


1) 拟定 调查 问卷 表 并 形成 原始 指标 表 ; 
2) 定义 纳入 标准 与 排除 标准 ; 
3) 将 收集 回来 的 问卷 表 整 理 成 原始 数据 。 


首先 根据 中 华中 医药 学 会 制定 的 相关 指南 与 标准 ， 从 乳腺 癌 六 种 分 型 的 症状 ( 表 8-3) ， 提 取 相 应 证 素 拟定 调查 问卷 表 ( 表 8-4) ， 并 制定 三 阴 乳 腺 癌 中 医 证 素 诊断 量 表 ( 表 8-5) ， 从 调查 问卷 中 提炼 
言 息 形成 原始 属性 表 。 然 后 依据 标准 定义 表 ( 表 8-6) ， 将 有 效 的 问卷 表 整 理 成 原始 数据 ( 表 8-2) 。 问 卷 调查 需要 满足 两 个 条 件 : 第 一 ， 问 卷 信息 采集 者 均 要 求 有 中 医 诊断 学 基础 ， 能 准确 识别 病人 的 舌苔 
脉 象 ， 用 通俗 的 语言 解释 医学 术语 ， 并 确保 患者 信息 填写 准确 ; 第 二 ， 问 卷 调查 对 象 必须 是 三 阴 乳 腺 癌 患 者 。 本 章 的 调查 对 象 是 某 省 中 医院 以 及 肿瘤 医院 等 各 大 医院 各 病程 阶段 1253 位 三 阴 乳 腺 癌 患 者 。 


表 8-3 ”和 乳腺 癌 辨 证 分 型 
证 型 = 
肝气 郁结 证 | ”乳房 肿块 ， 时 觉 胀 痛 ， 情 绪 忧郁 或 急躁 ， 心 烦 易 怒 ， 昔 薄 白 或 薄 黄 ， 肪 苞 请 
ИТЕ оре л 疼痛 ， 间 或 红肿 ， 甚 则 溃烂 、 亚 和 具 ， 或 发 热 ， 心烦 口 干 ， 便 秘 ， 小 便 短 赤 ， 
TR, Ж, тт, ВКО 
FLE, HÆR, RAAR, EERE, ЭРИ, hÚ but, OTIR, TR, т? 


冲 任 失调 证 少 ， 脉 细 无 力 
samer) AEIR, SWERE, ERI, SERAK, AEZH, WEEG, MEAR, TR, MIA 
气 血 两 虚 证 


无 力 
脾胃 虚弱 证 | 。 纳 呆 或 腹胀 CREE, Е, AAM, KAR 
肝 肾 阴 虚 证 | SERR, МЕИ, HESS, MEOR, KETA, ЗН, BA, Poika 


表 8-4 三 阴 和 乳腺 癌 中 医 证 素 调 查 问卷 


ПАНА E y Р Е X W: ЖЕ ЖАКИН ЇН М. Tahap Ж ЕД F НГАН, ЕШШ ЯГ rin АЕ Ж. 
ka 


ВЗЕЛА EH" ч “аш di: WERKIE М. KITETTE 


基本 信息 ] 
` К 
wa | |м | | 年 难 | | m | _ 
婚姻 状况 Пейж Ож 口 离异 ORM 
文化 程度 Ob oat 口 高 中 Ott 口 大 学 及 以 上 

ПТА 口 农民 口 和 杭 才 于 ПТ ОЕР OAR 


LES fu RREN 
联系 方式 
=; Не (ПИЖ OPAH); РХ 


ПЁ от [#®, W: Ит #7; 闭经 症状 (0A OF) ] 
OR ” 口 已 婚 【 若 已 婚 ， 则 :; AFRA +] 


口 未 生育 口 已 生育 [着 已 生育 ， 则 育 Bá, Ж” 
岁 ， 末 胎生 于 3] 


Ok П#=#[[ жЕ, WAJ ET: REHA 年 月 ， 最短 哺乳 年 H] 
АГЕ BB: | Out шул шкет 
[I F ORAA 


п CHEY Oiam ПИЙ 


OKE ГИЛГЕ (lie ORTE [lagi 
ШИН ОЖ 


ET: E AE) 已 进行 
РОЛАТ: 方案 【剂量 ) 合用 时 间 


本 前 耳闻 部 位 : ПИШ» 口内 她 区 OWAE 


新 辅助 治疗 


ET: DE ОИ) 已 进行 ЯН 
МТВ: 方案 【剂量 ) 使 用 时 间 
HR: 


辅助 治疗 


中 医药 治疗 


mAN E 


[ 病程 阶段 分 期 
于 手术 其 围 化 疗 期 HAKU ШЕ 


表 8-5 ZAMIR P E HE Bf т + 


[ .肝气 郁结 证 
ЕЖЕ, “Шр, БЕШ ИрИ. ВНК. МЫЙ АРЕ 


见证 候 及 计量 值 


咽 部 异物 感 


П a 


— 肝 大 // 胆 囊肿 大 // 脾 大 
a — 
МГ СА 
总 得 分 (A+B+C) w 


表 8-6 标准 定义 表 标 
标 准 详细 信息 


О 病理 诊断 为 乳腺 痛 
о 病历 完整 ， 能 提供 既往 接受 检查 、 治 疗 等 相关 信息 ， 包 括 发 病 年 龄 、 月 经 状态 、 原 发 肿 
纳 人 标准 交大 小 、 区 域 淋巴 结 状态 、 组 织 学 类 型 、 组 织 学 分 级 、P53 表达 、VEGF 表达 等 ， 作 为 
临床 病理 及 肿瘤 生物 学 的 特征 指标 
о 没有 精神 类 疾病 ， 能 自主 回答 问卷 调查 者 


口 本 研究 中 临床 、 病 理 、 肿 瘤 生 物 学 指标 不 齐全 者 
О 存 在 第 二 肿瘤 〈 非 乳腺 瘤 转移 ) 
排除 标准 = 精神 病 患 者 或 不 能 自主 回答 问卷 调查 者 
口 不 愿意 参加 本 次 调查 者 或 中 途 退 出 本 次 调查 者 
D 填写 的 资料 无 法 根据 诊疗 标准 进行 分 析 者 
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8.2.2 ”数据 预 处 理 


本 案例 中 数据 预 处 理 过 程 包括 数据 清洗 、 属 性 规约 和 数据 变换 。 数 据 来 源 于 问卷 调查 ， 因 此 数据 预 处 理 开 始 阶段 ， 需 要 把 纸 质 的 问卷 形成 原始 数据 集 。 针 对 原始 数据 集 ， 经 过 数据 预 处 理 ， 形 成 建 模 数 
据 集 。 


1. 数 据 清 洗 


在 收回 的 问卷 中 ， 人 存在 无 效 的 问卷 ， 为 了 便于 模型 分 析 ， 需 要 对 其 进行 处 理 。 经 过 问卷 有 效 性 条 件 ( 见 表 8-6) 筛选 后 ， 数 据 量变 化 情况 如 图 8-2 所 示 。 并 将 有 效 问卷 整理 成 原始 数据 ， 共 930 条 记录 。 
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可 收 问 郑 数 有 效 问卷 数 
图 8-2 ”样本 数据 采集 情况 
2. 属 性 规约 
本 案例 收集 到 的 数据 共有 73 个 属性 ， 为 了 更 有 效 地 对 其 进行 挖掘 ， 将 其 中 的 元 余 属 性 与 挖掘 任务 不 相关 属性 剔除 。 因 此 ， 选 取 其 中 6 种 证 型 得 分 、TNM 分 期 的 属性 值 构成 数据 集 如 表 8- 7 所 示 。 


表 8-7 属性 选择 后 的 数据 集 


患者 编号 | FOMA | А 脾胃 虚弱 | FEME 
ыз 证 得 分 证 得 分 
20140001 
20140179 
20140930 
3. 数 据 变换 


本 章 数 据 变换 主要 采用 属性 构造 和 数据 离散 化 两 种 方法 对 数据 进行 处 理 。 首 先 通 过 属性 构造 ， 获 得 证 型 系数 。 然 后 通过 聚 类 算法 对 数据 进行 离散 化 处 理 ， 形 成 建 模 数据 。 
(1) 属性 构造 

为 了 更 好 地 反映 出 中 医 证 素 分 布 的 特征 ， 采 用 证 型 系数 代替 具体 单 证 型 的 证 素 得 分 ， 证 型 相关 系数 计算 公式 如 下 : 证 型 系数 = 该 证 型 得 分 /该 证 型 总 分 。 

针对 各 种 证 型 得 分 进行 属性 构造 后 的 数据 集 如 表 8-8 所 示 。 


表 8-8 ”属性 构造 后 的 数据 集 


肝气 郁结 证 肝 肾 阴 虚 证 
型 系数 型 系数 
0. 056 0. 350 
0. 488 0. 293 
0. 169 (). 217 


* 数 据 详 见 : 示例 程序 /data/data.xls 
(2) 数据 离散 化 


由 于 Apriori 关 联 规则 算法 无 法 处 理 连 续 型 数值 变量 ， 为 了 将 原始 数据 格式 转换 成 适合 建 模 的 格式 ， 需 要 对 数据 进行 离散 化 。 本 章 采 用 聚 类 算法 对 各 个 证 型 系数 进行 离散 化 处 理 ， 将 每 个 属性 聚 成 四 类 ， 
其 离散 化 后 的 数据 格式 如 表 8-9~ 表 8-14 所 示 。 


289 ”肝气 郁结 证 型 系数 
范围 标识 肝气 郁结 数 范围 范围 内 元 素 的 个 数 
Al (0, x 244 
A3 `0. 354, 0. 504 | 53 


A2 | 0. 18, 0.258 | 355 


А4 0. 259, 0. 35 | 278 


8-10 热 毒 列 结 证 型 系数 离散 表 


5 [Б] кА ЕРЕШЕ Я 55р Е 


ВЗ 10, 0.15] 342 
В2 70. 297, 0. 485] 179 


ВІ 10. 494, 0. 78 | 29 


B4 10.151, 0.296] 380 


表 8-11 冲 任 失调 证 型 系数 


沁 围 标识 冲 任 失 调 证 型 系数 范围 范围 内 元 素 的 个 数 


Cl 0.438, 0.61] 35 


c3 0. 289, 0.415 | 206 
C2 0.067, 0.201] 296 


C4 0. 202, 0. 288 | 393 


3 
| 
测 
= 
5 
а 


表 8-12” 气 血 两 虚 证 型 系数 离散 表 
范围 标识 气 血 两 虚 证 型 系数 范围 范围 内 元 素 的 个 数 


D2 0. 177, 0. 256 | 367 


D1 0. 366, 0. 552 | 44 


D3 0. 257, 0. 364 | 221 
D4 0.059, 0.176| 298 


表 8-13 脾胃 虚弱 证 型 系数 


范围 标识 脾胃 虚弱 证 型 系数 范围 范围 内 元 素 的 个 数 


El [0.155, 0.256] 307 


ЕЗ [0. 259, 0. 375 | 244 
РА | 0. 003, 0. 154 285 


38-14 肝 肾 阴 虚 证 型 系数 


范围 标识 范围 内 元 素 的 个 数 


数据 离散 化 的 代码 如 代码 清单 8-1 所 示 。 


代码 清单 8-1 数据 聚 类 离散 化 代码 


## 设 置 工作 空 空间 
# 把 “数据 及 程序 ”文件 夹 复制 到 F 盘 下 ， 再 用 setwd 设 置 工作 空间 
setwd ("F: /数据 及 程序 /chapter8/ 示 例 | 程序") 

k4 


## 读 取 数 据 

datafile=read.csv ("./data/data.csv", header=T) 

# 参 数 初始 化 

type=4; и 分 组 个 数 

index=8; зк. A 

typelabel= e ("aA ы. ro" к" # 数 据 离 散 化 后 的 标识 前 组 


set.seed (1234) ; ЕЕЕ 


cols=ncol (datafile [, 1: 6] ) # 取 六 种 证 型 列 数 

rows=nrow (datafile [, 1: 6]) # 行 数 

disdata=matrix (NA, rows, cols+1) ; # 初 始 化 

## 聚 类 离散 化 

for (i іп 1: cols) {cl= kmeans (datafile [, i] ], type, nstart=20) ; # 对 单个 属性 列 进 行 聚 类 disdata [, i] =paste (typelabel [i] , cl$cluster) ; 


} 
disdata [, cols+1] =datafile [, index] ; 

disdata [, cols+1] =paste ("H", disdata [, cols+1] , ѕед="") ; 
FE- h АЕ 
colnames (disdata) =c (“肝气 郁结 证 型 系数 ”，“ 热 毒 蕴 结 证 型 系数 ”，“ 冲 任 失 调 证 型 系数 ”，“ 气 血 两 虚 证 型 系数 ”,，“ 脾 胃 虚 弱 证 型 系数 ”，“ 肝 肾 阴 虚 证 型 系数 ”，“TNM 分 期 ”) 
write.csv (disdata, file="./tmp/processedfile.csv", gquote = F, row.names = F) 


> 


* 代 码 详 见 : 示例 程序 /code/discretization.R 


原始 数据 集 经 过 数据 预 处 理 后 ， 形 成 建 模 数 据 如 表 8-15 所 示 。 


表 8-15 ” 建 模 数据 集 


肝气 郁结 рш 冲 任 和 失调 , 脾胃 虚弱 肝 肾 阴 虚 


Al 
A3 


Al 


8.2.3 ”模型 构建 


本 案例 的 目标 是 探索 乳腺 癌 患 者 TNM 分 期 与 中 医 证 型 系数 之 间 的 关系 ， 因 此 采用 关联 规则 算法 ， 挖 气 它 们 之 间 的 关联 关系 。 


关联 规则 算法 主要 用 于 寻找 数据 集中 项 之 间 的 关联 关系。 它 揭 示 了 数据 项 间 的 未 知 关系 ， 基 于 样本 的 统计 规律 ， 进 行 关联 规则 挖掘 。 根 据 所 挖掘 的 关联 关系 ， 可 以 从 一 个 属性 的 信息 来 推断 另 一 个 属性 
的 信息 。 当 置信 度 达到 某 一 靖 值 时 ， 就 可 以 认为 规则 成 立 。 


1. 中 医 证 型 关联 规则 模型 


本 次 中 医 证 型 关联 规则 建 模 的 流程 如 图 8-3 所 示 。 


一 建 模 参数 
| 建 模样 本 数据 


Apriori 算 法 仆 理 


> 


LIFE = 最 小 文 持 度 
置信 和 度 三 最 小 置信 和 度 


输出 关联 规则 


结束 


图 8-3 ”中 医 证 型 关联 规则 模型 流程 图 
由 图 8-3 可 知 ， 模 型 主要 由 输入 、 算 法 处 理 、 输 出 部 分 组 成 。 输 入 部 分 包括 : 建 模样 本 数据 的 输入 ， 建 模 参数 的 输入 。 算 法 处 理 部 分 是 Apriori 关 联 规则 算法 。 输 出 部 分 为 关联 规则 的 结果 。 


模型 具体 实现 步骤 如 下 : 首先 设置 建 模 参 数 最 小 支持 度 、 最 小 置信 度 ， 输 入 建 模 样本 数据 。 然 后 采用 Apriori 关 联 规则 算法 对 建 模 的 样本 数据 进行 分 析 ， 通 过 模型 参数 设置 的 最 小 支持 度 、 最 小 置信 度 以 
及 分 析 目 标 作 为 条 件 ， 如 果 所 有 的 规则 都 不 满足 条 件 ， 则 需要 重新 调整 模型 参数 ， 否 则 输出 关联 规则 结果 。 


目前 ， 关 于 如 何 设置 最 小 支持 度 与 最 小 置信 度 ， 并 没有 统一 的 标准 。 大 部 分 都 是 根据 业务 经 验 设置 初始 值 ， 然 后 经 过 多 次 调整 ， 获 取 与 业务 相符 的 关联 规则 结果 。 本 章 经 过 多 次 调整 并 结合 实际 业务 分 
析 ， 选 取 模 型 的 输入 参数 为 : 最 小 支持 度 6%、 最 小 置信 和 度 75%。 其 关联 规则 代码 如 代码 清单 8-2 所 示 。 


代码 清单 8-2 Apriori 关 联 规则 代码 


HHA E1 Z la] 

# 把 “数据 及 程序 ”文件 夹 复制 到 F 盘 下 ， 再 用 setwd 设 置 工作 空间 
setwd ("F: /数据 及 程序 /chapter8/ 示 例 程序 ") 

library (arules) 


# 读 入 数据 

a=read.csv ("./tmp/processedfile.csv", header=T) 读 入 数据 

trans=as (a, "transactions") # 将 数据 转换 为 transactions 格 式 
inspect (trans [1: 5] ) # 观 测 trans 数 据 集中 前 5 行 数据 items 
# 调 用 Apriori 算 法 


rules=apriori (trans, parameter=list (support=0.06, confidence=0.75) ) 
# 生 成 关联 规则 rules 


rules # 显 示 rxules 中 关联 规则 条 数 
inspect (rules) # 观 测 rules 中 关联 规则 


* 代 码 详 见 : 示例 程序 /code/aptiori_tules.R 
2. 模 型 分 析 
用 中 医 证 型 关联 规则 模型 对 建 模 数 据 进 行 挖 掘 ， 根 据 设 定 的 最 小 支持 度 和 最 小 置信 和 度 ， 得 出 中 医 证 型 系数 与 TINM 分 期 X 一 Y 的 关联 规则 ， 模 型 结果 如 表 8-16 所 示 。 


表 8-16 中医 证 型 关联 规则 模型 结果 


规则 编号 范围 标识 1 汇 围 标识 2 支持 度 / 全 E ë 8/5 


其 中 X 表 示 各 个 证 型 系数 范围 标识 组 合 而 成 的 规则 ，Y 表 示 TNM 分 期 为 H4 期 。A4 表 示 肝 和 气 郁结 证 型 系数 处 于 [0.259, 0.35] 范围 内 的 数值 ，C3 表 示 冲 任 失调 证 型 系数 处 于 [0.289, 0.415] 范围 内 的 
数值 ，F3 表 示 肝 肾 阴 虚 证 型 系数 处 于 [0.355, 0.607] 范围 内 的 数值 。 


由 表 8-16 分 析 可 以 得 到 如 下 结论 : 


1) A4、F3 一 H4 文 持 度 最 大 ， 达 到 7.85%， 置 信 度 最 大 ， 达 到 87.96%， 说 明 肝 气 郁结 证 型 系数 处 于 [0.259, 0.35] 和 肝 肾 阴 虚 证 型 系数 处 于 [0.355，0.607] 范围 内 ，TNM 分 期 诊断 为 H4 期 的 可 能 
性 为 87.96%， 而 这 种 情况 发 生 的 可 能 性 为 7.85%。 


2) C3、F3 一 H4 文 持 度 为 7.539%6， 置 信 度 为 87.50%， 说 明 冲 任 失调 证 型 系数 处 于 [0.289, 0.415] 和 肝 肾 阴 虚 证 型 系数 处 于 [0.355, 0.607] 范围 内 ，TNM 分 期 诊断 为 H4 期 的 可 能 性 为 87.50%， 而 
这 种 情况 发 生 的 可 能 性 为 7.53%。 


综合 以 上 分 析 ，TNM 分 期 为 H4 期 的 三 阴 乳 腺 瘤 患 者 证 型 主要 为 肝 肾 阴 虚 证 、 热 毒 殉 结 证 和 肝气 郁结 证 ，H4 期 患者 肝 肾 阴 虚 证 和 肝气 郁结 证 的 临床 表现 较为 突出 ， 其 置信 度 最 大 达到 87.96%。 


对 于 模型 结果 ， 从 医学 角度 进行 分 析 : 生理 上 ， 肝 藏 血 ， 肾 藏 精 ， 精 血 同 源 ， 肝 肾 同 源 ， 如 《 张 氏 医 通 》 所 言 : “ 气 不 耗 ， 归 精 于 肾 而 为 精 ; 精 不 泄 ， 归 精 于 肝 而 化 清 血 。” ;病理 上 ， 肝 肾病 变 常 相 

影响 ， 肾 阴 不 足 无 以 养 肝 阴 ， 肝 阳 化 火 则 糯 灼 肾 阴 。IV 期 三 阴 乳 腺 瘤 患 者 多 病程 迁延 ， 瘤 毒 久 殖 ， 不 论 是 化 疗 还 是 放疗 ， 均 会 耗 伤 气 血 津液 ， 故 见 肝 肾 阴 虚 之 证 。 由 于 肝 肾 阴 液 是 冲 任 二 脉 的 物质 基础 ， 

肝 崩 阴 虚 则 精 血 不 足 ， 故 冲 任 失调 。 且 古今 医家 皆 认 为 乳癌 的 形成 与 “肝气 不 舒 郁 积 而 成 。 有 关系 ,心理 学 中 抑郁 内 向 的 C 型 人 格 特征 也 被 认为 是 肿瘤 发 生 的 高 危 因素 之 一 ， 所 以 IV 期 三 阴 乳 腺 癌 患 者 多 有 
肝气 郁结 证 的 表现 。 


3. 模 型 应 用 
模型 结果 表明 TNM 分 期 为 IV 期 的 三 阴 乳 腺 瘤 患 者 证 型 主要 为 肝 肾 阴 虚 证 、 热 毒 欧 结 证、 肝气 郁结 证 和 冲 任 失调 证 。 其 中 ，IV 期 患者 肝 肾 阴 虚 证 和 肝气 郁结 证 的 临床 表现 较为 突出 ， 其 置信 度 最 大 达到 


87.96%， 且 肝 肾 阴 虚 证 临床 表现 都 个 在 。 故 当 IV 期 患者 出 现 肝 肾 阴 虚 证 之 表现 时 ， 应 当选 取 滋 补 肝 肾 、 清 热 解毒 类 抗 癌 中 药 ， 以 滋养 肝 肾 为 补 ， 清 热 解 毒 为 攻 ， 攻 补 兼 施 ， 截 断 热 毒 更 结 证 的 出 现 ， 为 患者 
接受 进一步 治疗 争取 机 会 。 由 于 患者 多 有 肝气 郁结 证 的 表现 ， 在 进行 治疗 时 须 本 着 身心 一 体 、 综 合 治疗 的 精神 ， 重 视 心 理 调适 。 一 方面 要 在 药方 中 注重 足 肝 解 秀 ， 另 一 方面 需要 及 时 琉 导 患者 抑 俘 、 焦 虑 的 
不 良 情绪 ， 帮 助 患者 建立 合理 的 认 知 ， 树 立 继续 治疗 延长 生存 期 的 勇气 。 


[1] 鹿 竞 文 .三 阴 乳 腺 癌 证 素 变化 规律 及 截断 疗法 研究 [Р] .江苏 : 南京 中 医药 大 学 .2012. 


83 ”上 机 实验 


1. 实 验 目的 
. 掌握 R 语 言 实 现 Aptiori 关 联 算法 的 过 程 ; 


` ТЖ Арпоп 关联 算 法 的 输入 与 输出 的 数据 形式 ， 且 需要 注意 对 输出 数据 进行 相应 的 筛选 。 


' 用 R 导 入 案例 的 事务 集 ， 每 一 行为 是 一 个 事务 集 。 调 用 其 中 的 关联 算法 函数 ， 输 入 算法 的 最 小 支持 度 与 最 小 置信 度 ， 获 得 中 医 症 型 系数 与 患者 TINM 分 期 的 关联 关系 规则 ， 并 将 规则 进行 保存 。 
` 依据 分 析 的 目标 ， 编 写 过 滤 函 数 代 码 ， 从 输出 结果 中 筛选 与 分 析 目 标 相 关 的 规则 ， 并 按照 特定 的 格式 进行 保存 。 


3. 实 验方 法 与 步骤 


1) 打开 R， 使 用 read.csv 函 数 将 关联 分 析 的 原始 数据 “上 机 实验 /tmpy/processedfile.csv” 读 入 到 R 中 ， 然 后 使 用 as 函数 将 数据 转换 为 transactions 格 式 ， 其 中 每 个 事务 集 为 一 行 ， 每 行事 务 集 的 分 隔 符 
默认 为 字符 “，”。 例 如 ，“A1，B2，C4，D3，E4，F3，H4” 这 样 的 一 行 数据 为 一 个 事务 集 。 


2) 设 定 关联 规则 的 支持 度 、 置 信和 度 ， 将 “示例 程序 /tmp/processedfile.csv” 文档 扫描 一 遍 ， 对 事物 集中 的 各 个 符号 进行 编码 ， 编 码 方式 为 一 个 映射 (如 “苹果 ”对 应 编码 1，“ 梨 ”对 应 编码 2 这 样 的 
形式 ) 。 


3) 根据 支持 度 找 出 频繁 集 ， 直 至 找到 最 大 频繁 集 后 停止 。 


Д) 根据 置信 和 度 得 到 大 于 等 于 置信 和 度 的 规则 ， 即 为 Apriori 算 法 所 求 的 关联 规则 。 


5) 对 Apriori 算 法 输出 的 规则 ， 编 写 过 滤 函 数 。 因 为 该 实验 中 探究 的 是 表 8-15 中 6 个 症 型 系数 与 患者 TNM 分 期 的 规则 ， 所 以 只 留 下 关联 规则 中 后 项 有 H 的 规则 。 输 出 
为 “Rule (Support, Confidence) A4, F3—H4 (7.8495%, 87.9518%) ”格式 ， 得 到 的 相应 结果 展示 。 


4. 思 考 与 实验 总 结 
1) Apriori 算 法 的 关键 两 步 是 找 频繁 集 与 根据 置信 和 度 筛 选 规划， 明白 这 两 步 过程 后 ， 才 能 清晰 地 编写 相应 程序 ， 读 者 可 按照 自己 的 思路 编写 与 优化 关联 规则 程序 。 


2) 本 案例 采用 聚 类 的 方法 进行 数据 离散 化 ， 读 者 可 以 自己 上 机 实验 其 他 的 离散 化 方法 ， 如 等 距 、 等 频 、 决 策 树 、 基 于 卡 方 检验 等 ， 试 比较 各 个 方法 的 优 缺 点 。 
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利用 本 章 案 例 中 的 原始 数据 ， 各 属性 说 明 如 表 8-17 所 示 ， 采 用 Apriori 关 联 规则 算法 ， 分 析 中 医 证 型 系数 与 病程 阶段 、 转 移 部 位 和 确诊 后 几 年 发 现 转移 三 个 指标 的 关联 分 析 。 


表 8-17 关联 规则 模型 输入 变量 


序号 变量 名 称 变量 描述 / 取 值 范围 

1 肝气 郁结 证 型 系数 

2 РШ 2и ИЕЛ Ж Ж 

3 冲 任 失 调 证 型 系数 

4 气 血 两 虚 证 型 系数 

5 脾胃 虚弱 证 型 系数 

6 PP 阴 虚 证 型 系数 

7 病程 阶段 Sl: РЖ; S2; 围 化 疗 期 ; 53: 围 放疗 期 ，S4: 巩固 期 

б 转移 部 位 КІ; #7; К2; Dü; R3: аша КО: УГ 

9 确诊 后 几 年 发 现 转移 | 10. 未 转移 ; H. 小 于 等 于 3 年 了 : 3 年 以 上 ,小 于 等 于 5 年 ; 13: 5 年 以 上 


85 ¿js 


本 章 结合 中 医 证 型 关联 规则 的 案例 ， 重 点 介绍 了 数据 挖掘 算法 中 Apriori 关 联 算法 在 实际 案例 中 的 应 用 ， 并 详细 的 摘 述 了 数据 获取 、 数 据 离散 化 以 及 模型 构建 的 过 程 ， 最 后 对 其 相应 的 算法 及 过 程 提供 了 
R 语 言 上 机 实验 。 
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有 经 验 的 渔业 生产 从 业者 可 通过 观察 水 色 变化 调控 水 质 ， 以 维持 养殖 水 体 生态 系统 中 浮游 植物 、 微 生物 类 、 浮 游 动物 等 合理 的 动态 平衡 。 由 于 这 些 多 是 通过 经 验 和 肉眼 观察 进行 判断 ， 存 在 因 主 观 性 引 
起 的 观察 性 偏 倚 ， 使 观察 结果 的 可 比 性 、 可 重复 性 降低 ， 不 易 推广 应 用 。 当 前 ， 数 字 图 像 处 理 技术 为 计算 机 监控 技术 在 水 产 养殖 业 的 应 用 提供 了 更 大 的 空间 。 在 水 质 在 线 监 测 方面 ， 数 字 图 像 处 理 技术 是 基 
于 计算 机 视觉 ， 以 专家 经 验 为 基础 ， 对 池塘 水 色 进 行 优 劣 分 级 ， 达 到 对 池塘 水 色 的 准确 快速 判别 。 


附件 在 “上 机 实验 /data/images/” 目 录 下 给 出 了 某 地 区 多 个 罗 非 鱼池 塘 水 样 的 数据 ， 包 含水 产 专家 按 水 色 判 断水 质 分 类 的 数据 以 及 用 数码 相机 按照 标准 进行 水 色 采 和 集 的 数据 ( 表 9-1， 图 9-1) ， 每 个 
水 质 图 片 命名 规则 为 “类 别 编号 jpg”， 如 “1_1jpg” 说 明 当前 图 片 属于 第 1 类 的 样本 。 请 根据 这 些 数据 ， 利 用 图 像 处 理 技术 ， 通 过 水 色 图 像 实 现 水 质 的 自动 评价 。 


表 9-1 水 色 分 类 
茶 褐色 (FR, үз 
= = АГИ | 3 Я Г, š I м = 
а ашаа кш А 墨绿 、 绿 中 
PIAF) 
水 质 类 别 5 


图 9-1 标准 条 件 下 拍摄 的 水 样 图 像 


* 数 据 详 见 : 上 机 实验 /data/images/ 
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有 经 验 的 渔业 生产 从 业者 可 通过 观察 水 色 变 化 调控 水 质 ， 以 维持 养殖 水 体 生态 系统 中 浮游 植物 、 微 生物 类 、 浮 游 动物 等 合理 的 动态 平衡 。 由 于 这 些 多 是 通过 经 验 和 肉眼 观察 进行 判断 ， 存 在 因 主 观 性 引 
起 的 观察 性 偏 倚 ， 使 观察 结果 的 可 比 性 、 可 重复 性 降低 ， 不 易 推广 应 用 。 当 前 ， 数 字 图 像 处 理 技术 为 计算 机 监控 技术 在 水 产 养 殖 业 的 应 用 提供 了 更 大 的 空间 。 在 水 质 在 线 监测 方面 ， 数 字 图 像 处 理 技术 是 基 
于 计算 机 视觉 ， 以 专家 经 验 为 基础 ， 对 池塘 水 色 进行 优 劣 分 级 ， 达 到 对 池塘 水 色 的 准确 快速 判别 。 


附件 在 “上 机 实验 /data/images/” 目 录 下 给 出 了 某 地 区 多 个 罗 非 鱼池 塘 水 样 的 数据 ， 包 含水 产 专家 按 水 色 判 断水 质 分 类 的 数据 以 及 用 数码 相机 按照 标准 进行 水 色 采 和 集 的 数据 ( 表 9-1， 图 9-1) ， 每 个 
水 质 图 片 命名 规则 为 “类 别 编号 jpg”， 如 “1_1.jpg” 说 明 当前 图 片 属于 第 1 类 的 样本 。 请 根据 这 些 数据 ， 利 用 图 像 处 理 技术 ， 通 过 水 色 图 像 实现 水 质 的 自动 评价 。 


表 9-1 水 色 分 类 


茶 褐色 (姜黄 、 FE (Ин, 
: 油 绿 、 蓝 绿 、 
FE, Ii, | 
褐 中 带 绿 等 ) из. же 
| 带 褐 等 ) 


1_41 jpg 1 42 jpg 


图 9-1 标准 条 件 下 拍摄 的 水 样 图 像 


* 数 据 详 见 : 上 机 实验 /data/images/ 
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通过 拍摄 水 样 ， 采 集 得 到 水 样 图 像 ， 而 图 像 数 据 的 维度 过 大 ， 不 容易 分 析 ， 需 要 从 中 提取 水 样 图 像 的 特征 ， 提 取 反 映 图 像 本 质 的 一 些 关键 指标 ， 以 达到 自动 进行 图 像 识 别 或 分 类 的 目的 。 显 然 ， 图 像 特 
征 提取 是 图 像 识 别 或 分 类 的 关键 步骤 ， 图 像 特征 提取 的 效果 直接 影响 图 像 识 别 和 分 类 的 好 坏 。 


图 像 特征 主要 包括 颜色 特征 、 纹 理 特征 、 形 状 特征 、 空 间 关 系 特征 等 。 与 几何 特征 相 比 ， 颜 色 特 征 更 为 稳健 ， 对 于 物体 的 大 小 和 方向 均 不 敏感 ， 表 现 出 较 强 的 鲁 棒 性 。 本 案例 中 由 于 水 色 图 像 是 均匀 
的 ， 故 主要 关注 颜色 特征 。 颜 色 特 征 是 一 种 全 局 特征 ， 描 述 了 图 像 或 图 像 区 域 所 对 应 景物 的 表面 性 质 。 一 般 颜色 特征 是 基于 像素 点 的 特征 ， 所 有 属于 图 像 或 图 像 区 域 的 像素 都 有 各 自 的 贡献 。 在 利用 图 像 的 
颜色 信息 进行 图 像 处 理 、 识 别 、 分 类 的 研究 中 ， 在 实现 方法 上 已 有 大 量 的 研究 成 果 ， 主 要 采用 颜色 处 理 常 用 的 直方 图 法 和 颜色 矩 方 法 等 。 


颜色 直方 图 是 最 基本 的 颜色 特征 表示 方法 ， 它 反映 的 是 图 像 中 颜色 的 组 成 分 布 ， 即 出 现 了 哪些 颜色 以 及 各 种 颜色 出 现 的 概率 。 其 优点 人 在 于 能 简单 描述 一 幅 图 像 中 颜色 的 全 局 分 布 ， 即 不 同色 彩 在 整 幅 图 


像 中 所 占 的 比例 ， 特 别 适 用 于 描述 那些 难以 自动 分 割 的 图 像 和 不 需要 考虑 物体 空间 位 置 的 图 像 。 其 缺点 在 于 无 法 描述 图 像 中 颜色 的 局 部 分 布 及 每 种 色彩 所 处 的 空间 位 置 ， 即 无 法 描述 图 像 中 某 一 具体 的 对 象 
或 物体 。 


基于 颜色 矩 [1] 提 取 图 像 特 征 的 数学 基础 在 于 图 像 中 任何 的 颜色 分 布 均 可 以 用 它 的 矩 来 表示 。 根 据 概 率 论 的 理论 ， 随 机 变量 的 概率 分 布 可 以 由 其 各 阶 矩 唯一 地 表示 和 描述 。 一 幅 图 像 的 色彩 分 布 也 可 认为 
是 一 种 概率 分 布 ， 那 么 图 像 可 以 由 其 各 阶 矩 来 描述。 颜色 矩 包 含 各 个 颜色 通道 的 一 阶 距 、 二 阶 矩 和 三 阶 和 蚌 ， 对 于 一 幅 RGB 颜 色 空 间 的 图 像 ， 具 有 R、QG 和 B 三 个 颜色 通道 ， 则 有 9 个 分 量 。 


颜色 直方 图 产生 的 特征 维 数 一 般 大 于 颜色 和 矩 的 特征 维 数 ， 为 了 避免 过 多 变量 影响 后 续 的 分 类 效果 ， 在 本 案例 中 选择 采用 颜色 矩 来 提取 水 样 图 像 的 特征 ， 即 建立 水 样 图像 与 反映 该 图 像 特 征 的 数据 信息 关 
系 ， 同 时 由 有 经 验 的 专家 对 水 样 图 像 根 据 经 验 进行 分 类 ， 建 立 水 样 数据 信息 与 水 质 类 别 的 专家 样本 库 ， 进 而 构建 分 类 模型 ， 得 到 水 样 图 像 与 水 质 类 别 的 映射 关系 ， 并 经 过 不 断 调整 系数 优化 模型 ， 最 后 利用 
训练 好 的 分 类 模型 ， 用 户 就 能 方便 地 通过 水 样 图 像 ， 自 动 判别 出 该 水 样 的 水 质 类 别 。 图 9-2 为 基于 水 色 图 像 特征 提取 的 水 质 评价 流程 ， 主 要 包括 以 下 步骤 : 


Т) 从 采集 到 的 原始 水 样 图 像 中 进行 选择 性 抽取 与 实时 抽取 形成 建 模 数 据 和 增 量 数据 ; 

2) 对 1) 形成 的 两 个 数据 集 进行 数据 预 处 理 ， 包 括 图 像 切割 和 颜色 和 矩 特征 提取 

3) 利用 2) 形成 的 已 完成 数据 预 处 理 的 建 模 数 据 ， 由 有 经 验 的 专家 对 水 样 图 像 根据 经 验 进行 分 类 ， 构 建 专家 样本 ; 
4) 利用 3) 的 专家 样本 构建 分 类 模型 ; 


5) 利用 4) 的 构建 好 的 分 类 模型 进行 水 质 评价 。 


样本 数据 采集 \ ” 构建 专家 样本 


水 质 评价 流程 


”模型 训练 
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图 9-2 ”基于 水 色 图 像 特征 提取 的 水 质 评价 流程 


Q 2 1 ЫЕ ЛЕН 
У.2.1 AIETE 


采集 到 的 水 样 图 像 包 含 盛 水 容器 ， 容 器 的 颜色 与 水 体 颜色 差异 较 大 ， 同 时 水 体位 于 图 像 中 央 ， 为 了 提取 水 色 的 特征 ， 需 要 提取 水 样 图 像 中 央 部 分 具有 代表 意义 的 图 像 ， 具 体 实施 方式 是 提取 水 样 图 像 中 
x 1х x ix N. ix N. 
央 101x 101 像 素 的 图 像 。 设 原始 图 像 | 的 大 小 是 MxN， ООО 2 上 50 个 像素 点 到 第 (5 ) ,50 个 像素 点 ， 长 为 从 第 (2 js0 个 像素 点 到 第 1 (2 ,50 个 像素 点 的 子 图 像 


图 9-3 ”切割 前 水 样 图 像 〈 左 ) 和 切割 后 水 样 图 像 ( 右 ) 


使 用 其 他 编程 软件 进行 编程 ， 即 可 把 图 9-3 中 左边 切割 前 的 水 样 图 像 切割 并 保存 为 右边 切割 后 的 水 样 图像 。 


在 本 案例 中 选择 采用 颜色 和 矩 来 提取 水 样 图 像 的 特征 ， 下 面 给 出 各 阶 颜 色 矩 的 计算 公式 : 


(1) 一 阶 颜色 矩 


—BIPNG EF — MIRAE, RA T ЕАО КВНЕ Е, 


1 < 
E, = ү УЭ Pi ( 9- | ) 


т\н, EEEREN, N FRGAESBWER, 1=1, 2, 3; pi 是 第 个 像素 的 第 | 个 颜色 通道 的 颜色 值 。 


(2) 二 阶 颜色 矩 


二 阶 颜色 矩 采 用 的 是 二 阶 中 心 距 的 平方 根 ， 反 映 了 图 像 颜色 的 分 布 范围 。 


1 ] A | 
t: га ир (р, 一 Er (9-2) 


AH, 5ТЕ в ЛЕН ТЕЗЕ; E 是 在 第 i 个 颜色 通道 的 一 阶 颜色 和 矩 。 


(3) = 


ДЕЗЕ ВАУ EENAA, БЕВ r ЕЕ БНУУ, 


г] x ; | 
„= JES (р - E) (9-3) 


AH, реВ T ER6381889=BMIPNG62E; EERBAAR — ЛЕЛЕ. 
НИЈА Bts Ж ЁЛЕ ЕЗЕН BUEN КЕПЕ, ЗАНЕ ЛУУ {Н rRBSJ2SSIRIPFS, AAR РАНЕЕ, 45219-28749. 


表 9-2 水 色 图 像 特征 与 相应 的 水 色 类 别 的 部 分 数据 


水 质 | 序 | R 通 道 G 通道 B 通道 R 通道 G йун В йн R 通道 G 通道 B 通道 
› [1 0.495169 0.539358 | 0416124 | 0.011 эм | 0.09 811 | 014251 | 0.015367  O.01601 | 0.019748 


(Ж) 
水 质 | Pr B 通道 
类 别 = Б 


2 | 0. 361 016 | 0.013 753 0. 031 616 
3 |2 0. 185 972 | 0.011104 | 0. 007 902 0. 004 214 
4 |2 0. 191 341 | 0.014424 | 0.010462 0. 006 764 
5 0.097936 | 0.014778 | 0.012456 0. 003 47 
TE 0. 298 577 | 0.007731 | 0.005 877 _0. 006 53 
2 |: 0. 425 871 | 0.010344 | 0. 008 293 0.011 549 
0. 194201 | 0.012478 | 0.007927 _0. 005 29 
0. 177 364 | 0.010 554 | 0. 007 287 0. 006 419 
3 0. 178 113 | 0.012662 | 0.009752 0. 009 992 
pla 0.319711 | 0.008 125 | 0.006045 _ 0.004 5 


* 数 据 详 见 : 示例 程序 /data/moment.csv 


КӘ 


же аиын | |б 


м |. |ы 


9.22 ”模型 构建 


1. 模 型 输入 
对 特征 提取 后 的 样本 进行 抽样 ， 抽 取 80% 作 为 训练 样本 ， 剩 下 的 20% 作 为 测试 样本 ， 用 于 水 质 评价 检验 。 其 数据 抽样 代码 如 代码 清单 9-1 所 示 。 


代码 清单 9-1 数据 抽样 代码 


HHA E1 ја] 

# 把 “数据 及 程序 ”文件 夹 复制 到 F 盘 下 ， 再 用 setwd 设 置 工作 空间 

setwd ("F: /数据 及 程序 /chapter9/ 示 例 程序 ") 

### 把 数据 分 为 两 部 分 : 训练 数据 、 测 试 数据 

# 读 入 数据 

Data=read.csv (". /data/moment.csv'") 

井 数据 命名 

colnames (Data) <—c ("elassw", "та": "RI", "GI, "B] a "R2", "G2", "B2", "ВЗ", "63", "В3") 
HAED 

set.seed (1234) # 设 置 随机 种 子 

# 定 义 序列 ind， 随 机 抽取 1 和 2，1 的 个 数 占 80%，2 的 个 数 占 20% 

ind < sample (2, nrow (Data) ， replace=TRUE, prob=c (0.8, 0.2) ) 


trainData <-Data [іпа==1, |] # 训 练 数据 
testData <- Data [ind==2, | # 测 试 数据 

# 数 据 存 储 

write.csv (trainData, "./tmp/trainData.csv", row.names=FALSE) 
write.csv (testData, "./tmp/testData.csv", row.names=FALSE) 


* 代 码 详 见 : 示例 程序 /code/split_data.R 
王 小 茹 本 案例 采用 支持 向 量 机 作为 水 质 评 价 分 类 模型 ， 模 型 的 输入 包括 两 部 分 ， 一 部 分 是 训 | 练 样本 的 输入 ; 另 一 部 分 是 建 模 参数 的 输入 。 各 参数 说 明 如 表 9-3 所 示 。 


93 ”预测 模型 输入 变量 


#8 取 值 范 轩 
水 样 图 像 在 R 颜色 通道 的 一 阶 抵 


— 


2 G 通道 一 阶 矩 水 样 图 像 在 G 颜色 通道 的 一 阶 矩 

3 水 样 图 像 在 B Bi (6638 — УЕ 

4 jË — Н 水 样 图 像 在 R 颜色 通道 的 二 阶 矩 

5 С -ie 水 样 图 像 在 G 颜色 通道 的 二 阶 矩 

6 通道 二 阶 矩 水 样 图 像 在 B PN tn B Ву ВН 

7 R шс 水 样 图 像 在 R А Н = [ЖЕ -1 ~] 

8 G 通道 三 阶 矩 KERRE G 颜色 通道 的 三 阶 窍 1-1 

9 ВОН ИГА 水 样 图 像 在 В 颜色 通道 的 三 阶 矩 =1 =1 

10 水 质 类 别 不 同类 别 能 表征 水 中 浮游 植物 的 种 类 和 多 少 L; 2, 3,4,5 


支持 向 量 机 模型 代码 如 代码 清单 9-2 所 示 。 


代码 清单 9-2 构建 支持 向 量 机 模型 代码 


## 支 持 向 量 机 模型 构建 
НЕХ E TL 4E [а] 
# 把 “数据 及 程序 ”文件 夹 复制 到 E 盘 下 ， 再 用 setwq 设 置 工作 空间 
setwd ("F: /数据 及 程序 /chapter9/ 示 例 程序 ") 
# 读 取 数 据 
trainData=read.csv ("./data/trainData.csv") 
testData=read.csv ("./data/testData.csv" 
# 将 class 列 转换 为 factor 类 型 
trainData<-transform (trainData, class=as.factor (class) ) 
testData<-transform (testData, class=as.factor (class) ) 
## 支 持 向 量 机 分 类 模型 构建 
有 (e1071) # 加 载 e1071 包 

用 svm 建 立 支持 向 量 机 分 类 模型 
model<-svm (class~., trainData [, -2] ) 
summary (svm.model) 
# 建 立 混淆 矩阵 
confusion=table (trainData$class, predict (svm.model, trainData, type="class") ) 
accuracy=sum (diag (confusion) ) *100/sum (confusion) 
# 保 存 输出 结果 
output trainData=cbind (trainData, predict (svm.model, trainData, type="class") ) 
colnames (output trainData) <-c ("class", "id", "R1", "G1", "B1", "R2", "G2", "B2", "R3", 
"93", "ВЗ", "OUTPUT") 
write.csv (output trainData, "./tmp/output trainData.csv", row.names=FALSE) # 保 存 支持 向 量 机 模型 
save (svm.model, file="./tmp/svm.model .RData") 


* 代 码 详 见 : 示例 程序 /code/svm.R 
2. 结 果 及 分 析 
建立 模型 后 利用 训练 样本 进行 回 判 ， 得 到 的 混淆 矩阵 如 表 9-4 所 示 ， 分 类 准确 率 为 96.3%， 分 类 效果 较 好 ， 可 应 用 模型 进行 水 质 评价 。 


表 9-4 模型 混淆 矩阵 


л | E | сы 


9.23 水质 评 价 


取 所 有 测试 样本 为 输入 样本 ， 代 入 已 构建 好 的 支持 向 量 机 模型 ， 得 到 输出 结果 ， 即 预测 的 水 质 类 型 。 
类 效果 较 好 ， 可 将 模型 应 用 到 水 质 自动 评价 系统 ， 实 现 水 质 评价 。 水 质 评价 的 代码 如 代码 清单 9-3 所 示 。 


表 9-5 水质 评 价 的 混淆 矩阵 


мл | ++ 


代码 清单 9-3 ”支持 向 量 机 模型 评价 代码 


F# 模 型 评价 

# 设 置 工作 空间 

F 把 “数据 及 程序 ”文件 夹 复制 到 F 盘 下 ， 再 用 setwd 设 置 工作 空间 
setwd ("F: /数据 及 程序 /chapter9/ 示 例 程序 ") 

# 读 取 数 据 


+ + 


testData=read.csv ("./data/testData.csv") 

# 读 取 模 型 

load ("./tmp/svm.model.RData") # 建 立 混 淆 矩阵 

confusion=table (testData$class, predict (svm.model, testData, type="class") ) 

accuracy=sum (diag (confusion) ) *100/sum (confusion) 

# 保 存 输出 结果 

output testData=cbind (testData, predict (svm.model, testData, type="class") ) 

colnames (output testData) <-c ("class", "id", "R1", "G1", "B1", "R2", "G2", "B2", "R3", "G3", 
write.csv (output testData, "./tmp/output testData.csv", row.names=FALSE) 


* 代 码 详 见 : 示例 程序 /code/evaluation.R 


水 质 评价 的 混淆 矩阵 如 表 9-5 所 示 ， 


сп 


Ф | чо | о | бо | a 


分 类 准确 率 为 92.3%， 说 明 水 质 评价 模型 对 于 新 增 水 色 图 像 的 分 


сл 


"B3", "OUTPUT") 


[1] Stricker М A, Orengo M.Similarity of color images [C] //IS&T/SPIE's Symposium on Electronic Imaging: Science&Technology.International Society for Optics and Photonics, 1995: 381-392. 


93 ”上 机 实验 


1. 实 验 目的 


加 深 对 支持 向 量 机 原理 的 理解 及 使 用 。 


实验 数据 是 截取 后 图 像 的 颜色 和 矩 特征 ， 包 括 一 阶 和 矩 、 二 阶 矩 、 三 阶 乱 ， 同 时 由 于 图 像 具 有 R、G 和 B 三 个 颜色 通道 ， 


类 别 作 为 目标 输出 ， 构 建 支持 向 量 机 模型 ， 并 利用 混淆 和 矩阵 评价 模型 优 劣 。 
注意 : 数据 的 80% 作 为 训练 样本 ， 剩 下 的 20% 作 为 测试 样本 。 
3. 实 验方 法 与 步骤 
1) 把 经 过 预 处 理 的 专家 样本 数据 ， 即 “上 机 实验 /data/moment.csv” 文 件 使 用 read.csv 函 数 读 入 当前 工作 空间 。 


2) 把 工作 空间 的 建 模 数据 随机 分 为 两 部 分 ， 一 部 分 用 于 训练 ， 另 一 部 分 用 于 测试 。 


所 以 颜色 和 矩 特征 具有 9 个 分 量 。 结 合 水 质 类 别 和 颜色 和 矩 特征 构成 专家 样本 数据 ， 以 水 质 


3) 使 用 e1071 包 里 的 svm 函 数 以 及 训练 数据 构建 支持 向 量 机 模型 ， 使 用 predict 函 数 和 构建 的 支持 向 量 机 模型 分 别 对 训练 数据 进行 分 类 ， 使 用 table 函 数 求 出 混淆 矩阵 。 


4) 使 用 predict 函 数 和 3) 构建 好 的 支持 向 量 机 模型 分 别 对 测试 数据 进行 分 类 ， 参 考 3) 


1) 如 何在 R 环 境 下 处 理 图 像 数 据 ? 


2) 支持 向 量 机 模型 的 参数 有 哪些 可 以 设置 ”如 何 针对 数据 特征 进行 参数 择优 选择 ? 


得 到 模型 分 类 正确 率 和 混淆 和 矩阵 。 


94 拓展 思 


我 国 环境 质量 评价 工作 是 20 世 纪 70 年 代 后 才 逐 步 发 展 起 来 的 。 发 展 至 今 ， 在 评价 指标 体系 及 评价 理论 探索 等 方面 均 有 较 大 进展 。 但 目前 在 我 国 环境 评价 实际 工作 中 ， 所 采用 的 方法 通常 是 一 些 比 较 传统 
的 评价 方法 ， 往 往 是 从 单个 污染 因子 的 角度 对 其 进行 简单 评价 。 然 而 对 某 区 域 的 环境 质量 ， 如 水 质 、 大 气质 量 等 的 综合 评价 一 般 涉及 较 多 的 评价 因素 ， 且 各 因素 与 区 域 环境 整体 质量 关系 复杂 ， 因 而 采用 单 
项 污染 指数 评价 法 无 法 客观 准确 地 反映 各 污染 因子 之 间 相 互 作用 对 环境 质量 的 影响 。 


基于 上 述 原 因 ， 要 客观 评价 一 个 区 域 的 环境 质量 状况 ， 需 要 综合 考虑 各 种 因素 之 间 以 及 影响 因素 与 环境 质量 之 间 错 综 复 杂 的 关系 ， 采 用 传统 的 方法 存在 着 一 定 的 局 限 性 和 不 合理 性 。 因 此 ， 从 学 术 研 究 
的 角度 对 环境 评价 的 技术 方法 及 其 理论 进行 探讨 ， 对 寻求 能 更 全 面 、 客 观 、 准 确 反 映 环境 质量 的 新 的 理论 方法 具有 重要 的 现实 意义 。 


有 人 根据 空气 中 3O2、NO、NO2、NOx、PM10 和 PM2.5 的 含量 ， 建 立 分 类 预测 模型 ， 实 现 对 空气 质量 进行 评价 。 在 某 地 实际 监测 的 部 分 原始 样本 数据 经 预 处 理 后 如 表 9-6 所 示 。 请 采用 C4.5 决 策 树 进 
行 模 型 构建 ， 并 评价 模型 效果 。 


表 9-6 ” 建 模 样本 数据 


w 


022 0. 012 0. 066 О. 084 0. 073 lI 
. 017 0. 007 О. 037 0. 045 (). 069 | 


* 数 据 详 见 : 拓展 思考 /拓展 思考 样本 数据 .xls 


о |р | б> | | | p |P 
ы 
Ма 
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жаба КЕЕ Ж НТтЛКЛЕРИЛЕЫ ЗЕ, EAMA ГЕ АУАНА ЕЕЕ НИЦ ЕТЕНЕ) ЖЕН к ENEA ESRA. ЈАВЕ ЕРЕЕН, ЯВУ ЕЛА 
水 质 评价 ， 并 详细 地 摘 述 了 数据 挖掘 的 整个 过 程 ， 也 对 其 相应 的 算法 提供 了 R 语 言 上 机 实验 。 


第 10 章 ”家 用 电器 用 户 行 为 分 析 与 事件 识别 


101 背景 与 挖掘 目标 


居民 在 使 用 家 用 电器 过 程 中 ， 会 因 地 区 气息、 区域 不 同 、 用 户 年 龄 性 别 差异 ， 形 成 不 同 的 使 用 习惯 。 家 电 企 业 若 能 深入 了 解 其 产品 在 不 同 用 户 群 的 使 用 习惯 ,开发 新 功能 ， 就 能 开拓 新 市 场 。 


要 了 解 用 户 使 用 家 用 电器 的 习惯 ， 必 须 采 集 用 户 使 用 电器 的 相关 数据 ， 下 面 则 以 热水器 为 例 ， 分 析 用 户 的 使 用 行为 。 在 热水器 用 户 行为 分 析 过 程 中 ， 用 水 事件 识别 是 最 为 关键 的 环节 。 例 如 ， 国 内 某 热 
水 器 生产 厂商 新 研发 的 一 种 高 端 智 能 热水器 ， 在 状态 发 生 改 变 或 者 有 水 流 状态 时 ， 会 采集 各 监控 指标 数据 。 该 厂商 欲 根据 其 采集 的 用 户 用 水 数据 ， 分 析 用 户 的 用 水 行为 特征 ， 热 水 器 采集 到 用 户 用 水 数据 如 
表 10-1 所 示 。 由 于 用 户 不 仅仅 使 用 热水器 来 洗浴 ， 而 且 包 括 了 洗手 、 洗 脸 、 刷 牙 、 洗 菜 、 做 饭 等 用 水 行为 ， 所 以 热水器 采集 到 的 数据 来 自 各 种 不 同 的 用 水 事件 。 本 案例 基于 热水器 采集 的 时 间 序列 数据 ， 将 
顺序 排列 的 离散 的 用 水 时 间 节 点 根据 水 流量 和 停顿 时 间 间 隔 划 分 为 不 同 大 小 的 时 间 区 间 ， 每 个 区 间 是 一 个 可 理解 的 一 次 完整 用 水 事件 ， 并 以 热水器 一 次 完整 用 水 事件 作为 一 个 基本 事件 ， 将 时 间 序 列 数据 划 
分 为 独立 的 用 水 事件 并 识别 出 其 中 属于 洗浴 的 事件 。 基 于 以 上 工作 ， 该 厂商 可 从 热水器 智能 操作 和 节能 运行 等 多 方面 对 产品 进行 优化 。 


热水器 厂商 根据 洗浴 事件 识别 模型 ， 对 不 同 地 区 的 用 户 的 用 水 进行 识别 ， 根 据 识 别 结果 比 较 不 同 客户 群 的 客户 使 用 习惯 、 加 深 对 客户 的 理解 等 。 从 而 ， 三 商 可 以 对 不 同 的 客户 群 提 供 最 适合 的 个 性 化 产 
品 、 改 进 新 产品 的 智能 化 的 研发 和 制定 相应 的 营销 策略 。 


表 10-1 热水器 用 户 用 水 数据 


当前 


热水器 编号 | 。 发 生 时 间 и 

F: 
R_00001 | 20141019160855 ү ЖЕ ЖЕ БЕШКЕ ЕГ 50 
R_00001 | 20141019161042 ЗЕЛЕНЕ eT DEN 50 
R 00001 | 20141019161106 mas maaa s... 50 
R_00001 | 20141019161149 ЕЛЕНЕЛЕЗЕСНЕ TE 50 
K ОООО] 20141019172319 LE БЕ БЕ БЕ ШЕ IER 50 
R_00001 | 20141019172323 ШР ЖШ Тете 50 
R_00001 | 20141019172325 关 | 关 | 有 |5 |» 50 
R_00001 | 20141019172331 икин ики ин ЕСЕ ЧИИ 50 
R_00001 | 20141019172333 зх х |> 6 so | so еко 50 
R 00001 | 201410191723 „| 2 ЕЗИ ЕЗИ £ x x e] x %_ 50 
R 00001 | 20141019172456 | > | 关 | x | ж 0 % 50 
R_00001 | 20141019172458 | % 7 50 
R 00001 | 20141019172505 Т ОШКОШ ШЕ ЛЕШЕ slale 50 


20141019172506 


so 
5 


R ОООО] 


R 00001 


20141019172512 


* 数 据 详 见 : 示例 程序 /data/otiginal_data.xls 
请 根据 提供 的 数据 实现 以 下 目标 : 


1) 根据 热水器 采集 到 的 数据 ， 划 分 一 次 完整 用 水 事件 ; 


2) 在 划分 好 的 一 次 完整 用 水 事件 中 ， 识 别 出 洗浴 事件 。 


第 10 草 ”家 用 电器 用 户 行 为 分 析 与 事件 识别 


101 背景 与 挖掘 目标 


居民 在 使 用 家 用 电器 过 程 中 ， 会 因 地 区 气候 、 区 域 不 同 、 用 户 年 龄 性 别 差异 ， 形 成 不 同 的 使 用 习惯 。 家 电 企 业 若 能 深入 了 解 其 产品 在 不 同 用 户 群 的 使 用 习惯 ,开发 新 功能 ， 就 能 开拓 新 市 场 。 


要 了 解 用 户 使 用 家 用 电器 的 习惯 ,必须 采集 用 户 使 用 电器 的 相关 数据 ， 下 面 则 以 热水器 为 例 ， 分 析 用 户 的 使 用 行为 。 在 热水器 用 户 行为 分 析 过 程 中 ， 用 水 事件 识别 是 最 为 关键 的 环节 。 例 如 ， 国 内 某 热 
水 器 生产 厂商 新 研发 的 一 种 高 端 智能 热水器 ， 在 状态 发 生 改 变 或 者 有 水 流 状态 时 ， 会 采集 各 监控 指标 数据 。 该 厂商 欲 根 据 其 采集 的 用 户 用 水 数据 ， 分 析 用 户 的 用 水 行为 特征 ， 热 水 器 采集 到 用 户 用 水 数据 如 
表 10-1 所 示 。 由 于 用 户 不 仅仅 使 用 热水器 来 洗浴 ， 而 且 包括 了 洗手 、 洗 脸 、 刷 牙 、 洗 菜 、 做 饭 等 用 水 行为 ， 所 以 热水器 采集 到 的 数据 来 自 各 种 不 同 的 用 水 事件 。 本 案例 基于 热水器 采集 的 时 间 序列 数据 ， 将 
顺序 排列 的 离散 的 用 水 时 间 节 点 根据 水 流量 和 停顿 时 间 间 隔 划 分 为 不 同 大 小 的 时 间 区 间 ， 每 个 区 间 是 一 个 可 理解 的 一 次 完整 用 水 事件 ， 并 以 热水器 一 次 完整 用 水 事件 作为 一 个 基本 事件 ， 将 时 间 序 列 数据 划 
分 为 独立 的 用 水 事件 并 识别 出 其 中 属于 洗浴 的 事件 。 基 于 以 上 工作 ， 该 厂商 可 从 热水器 智能 操作 和 节能 运行 等 多 方面 对 产品 进行 优化 。 


热水器 厂商 根据 洗浴 事件 识别 模型 ， 对 不 同 地 区 的 用 户 的 用 水 进行 识别 ， 根 据 识 别 结果 比 较 不 同 客户 群 的 客户 使 用 习惯 、 加 深 对 客户 的 理解 等 。 从 而 ， 三 商 可 以 对 不 同 的 客户 群 提 供 最 适合 的 个 性 化 产 
品 、 改 进 新 产品 的 智能 化 的 研发 和 制定 相应 的 营销 策略 。 


表 10-1 热水器 用 户 用 水 数据 


当前 

热水器 编号 | 。 发 生 时 间 и 
温 

J/ 

R_00001 | 20141019160855 ү ЖЕ ЖЕ БЕШКЕ ЕГ 50 
R_D0001 | 20141019161042 ЗЕЛЕНЕ eT DEN 50 
R 00001 | 20141019161106 mas maaa s... 50 
R_00001 | 20141019161149 ЕЛЕНЕЛЕЗЕСНЕ TE 50 
K ОООО] 20141019172319 LE БЕ БЕ БЕ ШЕ IER 50 
В_00001 | 20141019172323 ШР ЖШ Тете 50 
R_00001 | 20141019172325 关 | 关 | 有 |5 |» 50 


R_00001 | 20141019172331 икин ики ин ЕСЕ ЧИИ 50 
R_00001 | 20141019172333 зх х |> 6 so | so еко 50 
R 00001 | 201410191723 2 X | іж 6 s е *%]}%_ 50 


R 00001 50 
R_00001 50 
R 00001 90 
R _ 00001 50 
RK 00001 90 
R 00001 50 


* 数 据 详 见 : 示例 程序 /data/otiginal_data.xls 
请 根据 提供 的 数据 实现 以 下 目标 : 
1) 根据 热水器 采集 到 的 数据 ， 划 分 一 次 完整 用 水 事件 ; 


2) 在 划分 好 的 一 次 完整 用 水 事件 中 ， 识 别 出 洗浴 事件 。 


102 分 析 万 法 与 过 程 


本 次 数据 挖掘 建 模 的 总 体 流程 如 图 10-1 所 示 。 
热水器 用 户 用 水 事件 划分 与 识别 主要 包括 以 下 步骤 : 
1) 对 热水器 用 户 的 历史 用 水 数据 进行 选择 性 抽取 ， 构 建 专 家 样本 。 


2) 对 1) 形成 的 数据 集 进行 数据 探索 分 析 与 预 处 理 ， 包 括 探索 用 水 事件 时 间 间 隔 的 分 布 、 规 约见 余 属 性 、 识 别 用 水 数据 的 缺失 值 ， 并 对 缺失 值 作 处 理 ， 根 据 建 模 的 需要 进行 属性 构造 等 。 根 据 以 上 处 
理 ， 对 用 水 样本 数据 建立 用 水 事件 时 间 间 隔 识别 模型 和 划分 一 次 完整 的 用 水 事件 模型 ， 再 在 一 次 完整 用 水 事件 划分 结果 的 基础 上 ， 剔 除 短暂 用 水 事件 缩小 识别 范围 等 。 


3) 在 2) 得 到 的 建 模样 本 数据 基础 上 ， 建 立 洗浴 事件 识别 模型 ， 对 洗浴 事件 识别 模型 进行 模型 分 析 评 价 。 
4) 对 3) 形成 的 模型 结果 应 用 并 对 洗浴 事件 划分 进行 优化 。 


5) 调用 洗浴 事件 识别 模型 ， 对 实时 监控 的 热水器 流水 数据 进行 洗浴 事件 自动 识别 。 
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图 10-1 热水器 用 户 用 水 识别 建 模 总 体 流 程 
10.2.1 数据 抽取 


在 热水器 的 使 用 过 程 中 ， 热 水 器 的 状态 会 经 常 发 生 改 变 ， 如 开机 和 关机 、 由 加 热 转 到 保温 、 由 无 水 流 到 有 水 流 、 水 温 由 50"C 变 为 49"C 等 。 而 智能 热水器 在 状态 发 生 改 变 或 者 水 流量 非 零 时 ， 每 两 秒 会 采 
集 一 条 状态 数据 。 由 于 数据 的 采集 频率 较 高 ， 并 且 数 据 来 自 大 量 用 户 ， 数 据 总 量 非常 大 。 本 案例 对 原始 数据 采用 无 放 回 随机 抽样 法 抽取 200 家 热水器 用 户 2014 年 1 月 1 日 至 2014 年 12 月 31 日 的 用 水 记录 作为 原 
始 建 模 数据 。 


热水器 采集 的 用 水 数据 包含 以 下 12 个 属性 : 热水器 编码 、 发 生 时 间 、 开 关机 状态 、 加 热 中 、 保 温 中 、 有 无 水 流 、 实 际 温度 、 热 水 量 、 水 流量 、 节 能 模式 、 加 热 剩 余 时 间 、 当 前 设置 温度 。12 个 属性 的 说 
明 如 表 10-2 所 示 ， 有 具体 的 数据 如 表 10-1 所 示 。 


表 10-2 热 术 器 属性 说 明 
属性 名 称 属性 说 明 
热水器 编码 热水器 出 厂 编号 
发 生 时 间 记录 热水器 处 于 某 状态 的 时 刻 
开关 机 状态 热 水 冀 是 否 开 机 
加 热 中 热水器 处 于 对 水 进行 加 热 的 状态 


属性 名 称 属性 说 明 
保温 中 热 术 器 处 于 对 水 进行 保温 的 状态 
有 无 水 流 热 术 水 流量 大 于 等 于 10L/min 为 有 水 ， 否 则 为 无 


实际 温度 热 水 串 中 热 水 的 实际 温度 

PUKE Кат Н 

水 流量 КАНЧА ЛЕ, FA: L/min 
+T ВЕ 热 水 帮 的 一 种 节能 工作 模式 

加 热 剩 余 时 间 加 热 到 设 定 温度 还 需 多 长 时 间 

当前 设置 温度 热 水 问 加 热 时 热 水 能 够 到 达 的 最 大 温度 
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用 水 停顿 时 间 间 隔 定 义 为 一 条 水 流量 不 为 0 的 流水 记录 同 下 一 条 水 流量 不 为 0 的 流水 记录 之 间 的 时 间 间 隔 。 根 据 现场 实验 统计 ， 两 次 用 水 过 程 的 用 水 停顿 的 间隔 时 长 一 般 不 大 于 4 分 钟 。 为 了 探究 用 户 真 
实用 水 停顿 时 间 间 隔 的 分 布 情况 ， 统 计 用 水 停顿 的 时 间 间 隔 并 作 频 率 分 布 直 方 图 。 通 过 频率 分 布 直 方 图 分 析 用 户 用 水 停顿 时 间 间 隔 的 规律 性 ， 从 而 探究 划分 一 次 完整 用 水 事件 的 时 间 间 隔 阐 值 。 具 体 的 数据 
如 表 10-3 所 示 。 


表 10-3 ”用 水 停顿 时 间 间 隔 频 数 分 布 表 


分 析 表 10-3 可 知 ， 停 顿时 间 间 隔 为 0~0.3min 的 频率 很 高 ， 根 据 日 常用 水 经 验 可 以 判断 其 为 一 次 用 水 时 间 中 的 停顿 ; 停顿 时 间 间 隔 为 6~ 13min 的 频率 较 低 ， 分 析 其 为 两 次 用 水 事件 之 间 的 停顿 间隔 。 两 


次 用 水 事件 的 停顿 时 间 间 隔 分 布 在 3~ 7min。 根 据 现 场 实 验 统计 用 水 停顿 的 时 间 间隔 近似 。 


10.2.3 ”数据 预 处 理 


本 案例 中 数据 集 的 特点 是 数据 量 包含 上 万 个 用 户 而 且 每 个 用 户 每 天 的 用 水 数据 多 达 数 万 条 、 存 在 缺失 值 、 与 分 析 主 题 无 关 的 属性 或 未 直接 反映 用 水 事件 的 属性 等 。 在 数据 预 处 理 阶 段 ， 针 对 这 些 情 况 相 


应 地 应 用 了 数据 规约 、 数 据 变换 和 数据 清洗 等 来 解决 这 些 问题 。 


为 


1 .数据 规 约 
由 于 热水器 采集 的 用 水 数据 属性 较 多 ， 本 案例 对 建 模 数据 作 以 下 数据 规约 : 


. 属性 规约 : 因为 要 对 热水器 用 户 洗浴 行为 的 一 般 规律 进行 控 所 分 析 ， 所 以 “热水器 编号 ”可 以 去 除 ; 因 热水器 采集 的 数据 中 ，“ 有 无 水 流 ”可 以 通过 “水 流量 ”反映 出 来 、“ 节 能 模式 ”数据 都 只 
“ 关 ”， 对 建 模 无 作用 ， 可 以 去 除 。 最 终 用 来 建 模 的 属性 指标 如 表 10-4 所 示 。 


. 数值 规约 : 当 热 水 器 “开关 机 状态 ”为 “ 关 ” 且 水 流量 为 0 时 ， 说明 热水器 不 处 于 工作 状态 ， 数 据 记 录 可 以 规约 挤 。 
表 10-4 属性 规约 后 部 分 数据 列表 


实际 水 流量 | 加热 剩余 | ”当前 设置 


| + # ok t š š oj 
发 生 时 间 热 水 量 /% ГАР ЕУ ЇН] тїп а FEE / О 


ш EE C 


20141019161042 5 | о | 50 
20141019161147 5 | о | 50 
20141019161149 00 | о | 50 


20141019172321 


* 数 据 详 见 : 示例 程序 /data/water_heatetr.xls 


2. 数 据 变换 


由 于 本 案例 的 挖掘 目标 是 对 热水器 用 户 的 洗浴 事件 进行 识别 ， 这 就 需要 从 原始 数据 中 识别 出 哪些 状态 记录 是 一 个 完整 的 用 水 事件 (包括 洗脸 、 洗 手 、 刷 牙 、 洗 头 、 洗 菜 、 洗 浴 等 ) ， 从 而 再 识别 出 用 水 


事件 中 的 洗浴 事件 ; 一 次 完整 的 用 水 事件 是 根据 水 流量 和 停顿 时 间 间 隔 的 阐 值 去 划分 的 ， 所 以 本 案例 还 建立 了 立 值 寻 优 模型 ;为 了 提高 在 大 量 的 一 次 完整 用 水 事件 中 寻找 洗浴 事件 的 效率 ， 本 案例 建立 了 筛 
选 规则 剔除 可 以 明显 判定 不 是 洗浴 的 事件 ， 得 到 建 模 数 据 样本 集 。 数 据 变换 流程 如 图 10-2 所 示 。 


910-2 ”数据 变换 流程 图 


(1) 一 次 完整 用 水 事件 的 划分 模型 


用 户 的 用 水 数据 存储 在 数据 库 中 ， 记 录 了 各 种 各 样 的 用 水 事件 ， 包 括 洗浴 、 洗 手 、 刷 牙 、 洗 脸 、 洗 衣 、 洗 菜 等 ， 而 且 一 次 用 水 事件 由 数 条 甚至 数 干 条 的 状态 记录 组 成 。 所 以 本 案例 首先 需要 在 大 量 的 状 
态 记录 中 划分 出 哪些 连续 的 数据 是 一 次 完整 的 用 水 事件 。 


用 水 状态 记录 中 ， 水 流量 不 为 0 表明 用 户 正 在 使 用 热 水 ; 而 水 流量 为 0 时 用 户 用 热 水 发 生 停顿 或 者 用 热 水 结束 。 对 于 任 一 个 用 水 记录 ， 如 果 它 的 向 前 时 差 超 过 阅 值 T， 则 将 它 记 为 事件 的 开始 编号 ， 如 果 


ГЕ ШНТ, ШИ ЕЕН ЕЕН ЕШ, яи ЕНИЕНЕПЖЕ10-5Блл. 
表 10-5 一 次 完整 用 水 事件 模型 构建 符号 说 明 表 
符 = Е х 

1 所 有 水 流量 不 为 0 的 用 水 行为 的 发 生 时 间 

н] н] {Н T 
一 次 完整 用 水 事件 的 划分 步 又 如 下 : 
1) 读 取 数 据 记 录 ， 识 别 到 所 有 水 流量 不 为 0 的 状态 记录 ， 将 它们 的 发 生 时 间 记 为 序列 t1。 
2) 对 序列 t1 构 建 其 向 前 时 差 列 和 向 后 时 差 列 ， 并 分 别 与 闵 值 进行 比较 。 向 前 时 差 超过 阔 值 T， 则 将 它 记 为 新 的 用 水 事件 的 开始 编号 ; 如 果 向 后 时 差 超过 阔 值 T， 则 将 其 记 为 用 水 事件 的 结束 编号 。 
3) 循环 执行 2》 直 到 向 前 时 差 列 和 向 后 时 差 列 与 均值 比较 完毕 ， 结 束 事件 划分 。 
使 用 R 对 用 户 的 用 水 数据 进行 一 次 完整 用 水 事件 的 划分 ， 阔 值 T 暂 时 假设 为 4min， 详 细 代码 如 代码 清单 10-1 所 示 。 
代码 清单 10-1 划分 一 次 用 水 事件 代码 


HHA я то ја] 

# 把 “数据 及 程序 ”文件 夹 复制 到 FE 盘 下 ， 再 用 Setwd 设 置 工作 空间 
setwd ("F: /数据 及 程序 /chapter10/ 示 例 程序 ") 

data = read.csv ("./data/water heater.csv", header=TRUE) 
data$" 发 生 时 间 "=strptime (data$" 发 生 时 间 "，"%Y%m%d%H%SM%SS") 
data$eventnum=as .numeric (row.names (data) ) 

whdata=data [qdqataS" 水 流量 "! =0, ] 

t1=whdata$" 发 生 时 间 " 

m=length (t1) # 得 到 读 取 的 表格 的 数据 维 数 
Tm=240# 阀 值 设 置 为 4 分 钟 (240 秒 ) 

С2=б Ctl [1] a tI Li: (m1) 1) 

t3=c (t1 [2: m] , tl [m] ) 


tdl=difftime (tl, t2, units = "secs") # 生 成 向 前 时 差 列 (单位 为 秒 ) 
td2=difftime (tl, t3, units = "secs" # 生 成 向 后 时 差 列 (单位 为 秒 ) 
headornot=rep (0, m) 


endornot=rep (0, m) 
if (whdatas$" 水 流量 " [1] ! =0 ) headornot [1] =1 
if (whdatas$" 水 流量 " [m] ! =0 ) endornot [m] =1 
for ( i in 2: length (headornot) ) { # 导 找 连 续 用 水 起 点 
if (abs (tdl [i] ) >=Tm) { 
headornot [i] =l 
}else{ 
headornot [i] =0 


} 
} 
for ( і іп 1: (length (endornot) -1) ) {# 寻 找 连 续 用 水 终点 
if {abs (td2 [i] ) >=Tm) { 
endornot [i] =1 
}else{ 
endornot [i] =0 


} 
} 
dividsequence=data.frame (matrix (NA, sum (headornot==1) , 3) ) 
colnames (dividsequence) =c (" 事 件 序号 "，" 事 件 起 始 编号 "，" 事 件 终止 编号 ") 
dividsequence [, 1] =c (1: sum (headornot==1) 
dividsequence [, 2] =whdata$eventnum [ which (headornot==1) | 
dividsequence [, 3] =whdata$eventnum [ which (endornot==1) | 
write.csv (file="/tmp/dividsequence.csv", dividsequence, row.names=F) 


* 代 码 详 见 : 示例 程序 /code/divide_event.R 


对 用 户 的 用 水 数据 进行 划分 ， 划 分 结果 如 表 10-6 所 示 。 在 下 一 小 节 的 用 水 事件 阔 值 寻 优 模型 中 ， 进 行 阔 值 寻 优 时 ， 要 多 次 用 到 以 上 程序 ， 将 以 上 程序 封装 为 divide_event Ғог орїітігайопё4&%, LAH 
调用 。 


表 10-6 用 水 数据 划分 结果 


件 序号 | 事件 起 始 编号 | 事件 终止 编号 


ч гы 
т А 
=] ы 
л 

л =a] к 


(2) AKF FRESE 


279218) 6р АУ ARKAE, RARER AAR S RAKE, EKE RAE AEE, РЕ — AAA 
AEACHD -AHIA . PHL12FS2UJ#r4-FEJBSBJiBJE2 SEE ТЕШ, Жау T ANES RE SRRA, S ARRA A SN EA. 


对 某 热水器 用 户 的 数据 进行 了 不 同 阅 值 划 分 ， 得 到 了 相应 的 事件 个 数 ， 立 值 变 化 与 划分 得 到 事件 个 数 如 表 10-7 所 示 ， 阅 值 与 划分 事件 个 数 关 系 如 图 10-3 所 示 。 


107 某 热 水 器 用 户 家 庭 某 时 间 段 不 同 用 水 时 间 间 隔 阅 值 事件 划分 个 数 阅 什 


йт» [es | s es з [ж] эз [эз] + [з Газ Tan 
жым | вө | өм | os [о | sss ses | sas | 530 | 530 | 530 [5ю_ 
mn [sss | 325 | 6 [es вз es] 7 225] 7.5 [115 
srm | so | sos | sos | soo | aso | a72 | 206 | 262 | seo | a0 [aoo 
图 10-3 为 立 值 与 划分 事件 个 数 的 散 点 图 ， 图 中 某 段 闵 值 范围 内 ， 下 降 趋势 明显 ， 说 明 在 该 段 阐 值 范围 内 ， 用 户 的 停顿 习惯 比较 集中 。 如 果 趋 势 比 较 平缓 ， 则 说 明 用 户 的 停顿 热 水 的 习惯 趋 于 稳定 ， 所 以 


取 该 段 时 间 开 始 的 作为 闵 值 ， 既 不 会 将 短 的 用 水 事件 合并 ， 又 不 会 将 长 的 用 水 事件 拆 开 。 在 图 10-3 中 ， 用 户 停顿 热 水 的 习惯 在 方 框 的 位 置 趋 于 稳定 ,说明 热水器 用 户 的 用 水 的 停顿 习惯 用 方 框 开始 的 时 间 点 
作为 划分 立 值 会 有 一 个 好 的 效果 。 


700 
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500 W AAA ФФФ о. ч 
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国 值 /min 


9103 ” 阅 值 与 划分 事件 个 数 关系 


曲线 在 图 10-3 中 方 框 趋 于 稳定 时 ， 其 方 框 开始 的 点 的 斜率 趋 于 一 个 较 小 的 值 。 为 了 用 程序 识别 这 一 特征 ， 将 这 一 特征 提取 为 规则 。 其 方 框 中 的 起 始 时 间 可 以 通过 图 10-4 中 的 A 点 到 其 他 各 点 的 斜率 进行 


识别 。 
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图 10-4 ”斜率 计算 图 
每 个 阔 值 对 应 一 个 点 ， 对 每 个 阔 值 进行 计算 得 到 一 个 斜率 指标 。 如 图 10-4 中 所 示 ，A 点 是 要 计算 斜率 指标 的 点 ， 则 计算 A 点 的 斜率 指标 。 为 了 直观 地 展示 ， 用 下 面 的 符号 来 进行 说 明 ， 如 表 10-8 所 示 。 


%10-8 ” 阅 值 寻 优 模型 符号 说 明 


kn | 4 与 i 点 的 斜率 的 绝对 值 ie (8, C, D, E| 个 点 的 斜率 之 和 的 平均 什 
k TEPLA (ху, уу), (xx, у) 的 斜率 的 绝对 值 wo Yi) | 二 点 的 坐标 ie (4, B, С, D, E} 


= | 


ka |73 (10-1) 


根据 式 (10-1) ， 计 算出 kAB、KkAC、KkAD、kAE 四 个 斜率 。 于 是 可 以 计算 出 4 个 斜率 的 和 的 平均 值 K: 


(ku + Кс + Б + ki )/4 (10-2) 


将 K 作 为 A 点 的 斜率 指标 ， 特 别 指出 横 坐 标 上 的 最 后 4 个 点 没有 和 斜率 指标 ， 因 为 找 不 出 在 它 以 后 的 4 个 更 长 的 辣 值 。 但 这 不 影响 对 最 优 阅 值 的 寻找 ， 因 为 可 以 提高 阐 值 的 上 限 ， 以 使 最 后 的 4 个 辣 值 不 是 考 
虑 范围 内 的 立 值 。 


于 是 ， 阅 值 优化 的 结果 如 下 : 


>< Z 


Е — Л 846 б) ФРА К< АЧ, MU ЛА g] EA (可 能 存在 多 个 阅 值 的 斜率 指标 小 于 1) ВО АЕХА 2 B) KO BAE, РКТ 0512 #14 ЖЕК ҖЕ E g — 45 Я BE o 


' %ЖЖЛЕК<1{, MARMA BUA P 3 384832] 65 И; +b Rk BR 65 Н T5, m] БЕ ЙЕ 25 AKERA B]; Ж А И бу ФР 3 38 F 5, M BERRE B| ñ 4min, ЖР, 
М 5 P 6652 3 34 Бк 3848354805 — 48 + 2 8148 „ 


使 用 R 对 用 户 的 用 水 数据 划分 阔 值 进行 寻 优 ， 寻 优 区 间 在 2~8min ， 详 细 代码 如 代码 清单 10-2 所 示 。 


代码 清单 10-2 ” 阅 值 寻 优 代码 


## 设 置 工作 空间 
# 把 “数据 及 程序 ”文件 夹 复制 到 F 盘 下 ， 再 用 setwd 设 置 工作 空间 
setwd OF: /数据 及 程序 /chapter10/ 示 例 程序 ") 
data = read.csv ("./data/water heater.csv", header=TRUE) 
Tm=seq (2, 8, by=0.25) *60 # 阀 值 设置 为 2~ 8 分 钟 ， 每 0.25 分 钟 取 次 值 ， 存 在 Tm 向 量 中 
divide event for optimization=function (x, data) { 
#x: 划分 事件 的 阅 值 data: 输入 数据 
data$" 发 生 时 间 "= strptime (data$" 发 生 时 间 "，"%Y%m%d%HSM%S") 
data$eventnum=as .numeric (row.names (data) ) 
whdata=data [data$" 水 流量 "! =0, 
1=whdatas$" 发 生 时 间 " 
m=length (t1) Ж] 69 н АЕ Е 
t2=0 (EL [1] , r (m-1) | ) 


ЕЗ=с (tl [2: m, 1 [maj ) 

tdl=difftime (tl ， Ре: units = "ѕесѕ") # 生 成 向 前 时 差 列 
td2=difftime (tl, t3, units = "secs") # 生 成 向 后 时 差 列 
headornot=rep (0, m) 


endornot=rep (0, m) 

if (whdata$" 水 流量 " [1] ! =0 ) headornot [1] =1 
if (whdata$" 水 流量 " [m] | =0 ) endornot Im] =1 
for ( і іп 2: length (headornot) ) {# 寻 找 连 续 用 水 起 点 


}е1ѕе { 
headornot 


) 
return (sum (headornot) ) 


) 
div=data. 
div [, 1] =Tm 


div [i, 2] =divide ‹ 


kE 阀 值 
k=rep (0, length (Tm) ) 
for (i in 1 : 


[121 =@ 


frame (matrix (0, lengt 


event ` 


if (abs (ват [i] ) >= 人 { 
headornot [1 


СТ) > 


2) ) 
for ( i in 1: length (Tm) ) {# 分 别 求 各 阀 值 对 应 的 事件 数 ， 并 存 于 div 中 


for optimization (Tm [1], 


data) 


(length (Tm) -4) ) Í 


k [i] = (abs ( (div [i+1, 2] ст [i, 2] ) /0.25) +арѕ ( (div [i+2, 2] -div [i, 2] 5) 


+арѕ ( (div [1+3, 2] -div [i, 2] ) 


} 

# 

kl=length (К) 

if (any (k L- : ; 85 зу + 


Tm best=k 
үе1ве{ 
Tm besi 


) 
Tm best 
* 代 码 详 见 : 
根据 读 入 的 数据 文件 ， 进 


(3) 属性 构造 


本 案例 研究 的 是 用 水 行为 ， 可 构造 四 类 指标 : 时 长 指标 、 


时 长 指标 
频率 指标 
用 水 量化 指标 
用 水 波动 指标 


с ( (к1-3) 


k [i] 记录 每 个 阅 值 对 应 的 平均 斜率 


k1) ] <=1) ==TRUE) 
kl J. [kD 


) / 
/0.75) +abs ( (div [1+4, 2] -div [i, 2]) D ) /4 


{ 
c ( (kl-3) : kl) ] <=1] [1] 


t=Tm [which (k==min (К [-с ( (kl-3) 
ie (Tm best>=5) Tm best=4 


£ kl) Д" C1760 


示例 程序 /code/threshold_optimization.R 


行 阅 值 寻 优 ， 得 到 该 段 时 间 用 水 事件 划分 最 优 立 值 为 4min。 


用 水 开始 时 间 、 


时 长 、 


频率 指标 、 用 水 量化 指标 以 及 用 水 波动 指标 。 具 体 请 如 表 10-9 所 示 。 


表 10-9 四 类 属性 指标 的 构建 表 


用 水 结束 时 间 、 总 用 水 时 长 、 停 顿时 长 、 
用 水 时 长 /总 用 水 时 长 


芷 体 顿 时 长 、 用 水 时 长 、 


停顿 次 数 
总 用 水 量 、 ш 水 流量 


水 流量 让 动 、 


至 顿时 长 波动 


对 一 次 用 水 事件 中 ， 抽 取 主 要 的 用 水 数据 ， 具 体 如 表 10-10 所 示 。 


发 生 时 间 


20141021200012 
20141021200120 
20141021200330 
20141021200350 
20141021200352 
20141021200720 
20141021200820 
20141021200822 
20141021201010 
20141021201116 
20141021201118 
20141021201200 


表 10-10 一 次 用 水 事件 的 用 水 数据 表 


水 流量 
ГАР 
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: 
е, 
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Ln 
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=] 
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Ja 
=. 
Һә 
л 
аа 
с 


: | : 
ы 
ы 
中 
I 


根据 用 水 数据 ， 得 到 用 水 事件 的 属性 构造 说 明 图 ， 如 图 10-5 所 示 。 


平均 停顿 


Wd 当前 设置 


总 用 水 时 长 


20:00:10 
Жїй=50°С 


20:00:12 20:03:50 20:03:52 20:08:20 20:08: 20:11:16 20:11:18 
Жїй=50°С A= T Жїй=4&'С| | k0 ў i k= C #TKill=46 C 
水 流 =80 水 流 =70 水 流 =0 水 流 =0 Кк 水 流 =80 水 流 =0 
保温 中 ЖУП 加 热 中 保温 中 Жї 加 热 中 保温 中 


* 


Жїї=0 
保温 中 


} \ 
і 
š i i А а | Z i \ ты | f 
` Ж + i h К L ' а jJ А f | ПЕ š 加 热 时 长 B | f 
н r ' N 


用 水 开始 时 间 20:01:20 20:03:30 停顿 开始 时 间 20:07:20 КОШЕ ЧУ R:J |H] 20:10:10 ká КИ 20:12:00 

20:00:11 k= T Жїң=46С 20:03:51 本 温 =50 亿 20:08:21 Жїї—=45'С 20:11:11 Жїз=50°С 
Кїң=70 水 访 =78 z a= Жїййї=90 水 证 = 
{жїн 加 热 中 | 保温 中 加 热 中 保温 中 


图 10-5 ”一 次 用 水 事件 及 相关 属性 说 明 
下 面 将 四 类 指标 的 构建 方法 做 详细 说 明 。 


` 时 长 指标 : 由 图 10-5 及 表 10-10 可 知 ， 在 20: 00: 10 时 热水器 记录 到 的 数据 还 没有 用 水 ， 而 在 20: 00: 12 时 热水器 记录 的 有 用 水 行为 。 所 以 用 水 开始 时 间 在 20: 00: 10~20: 00: 12， 考 虑 到 网 络 不 稳 
定 导 致 网 络 数据 传输 延 时 数 分 钟 或 数 小 时 之 久 等 因素 ， 取 平均 值 会 导致 很 大 的 偏差 ， 综 合 分 析 构 建 “ 用 水 开始 时 间 ” 为 起 始 数据 的 时 间 减 去 “2 2 Bë ”的 一 半 ， 发 送 阔 值 是 指 热 水 器 传输 数据 的 频率 的 大 
小 ; 同 理 构造 用 水 结束 时 间 、 停 顿 开始 时 间 、 停 顿 结束 时 间 等 。 图 10-5 中 “用 水 时 长 A ”是 “用 水 开始 时 间 ” 到 “停顿 开始 时 间 ” 的 间隔 时 长 ， 构 建 一 次 用 水 事件 中 “用 水 时 长 ”为 各 段 用 水 时 长 之 和 ; 同 理 
构造 总 用 水 时 长 、 停 顿时 长 等 。 详 细 信 息 如 表 10-11 所 示 。 


表 10-11 主要 时 长 指标 构建 说 明 


98 标 构建 万 法 їйї BB 


用 水 开始 时 间 用 水 开始 时 间 = 起 始 数据 的 时 间 - 发 送 国 值 72 热 水 事件 开始 发 生 的 时 间 
用 水 结束 时 间 用 水 结束 时 间 = 结束 数据 的 时 间 + 发 送 国 值 /2 热 水 事件 结束 发 生 的 时 间 
次 完整 用 水 事件 中 ， 对 水 流量 不 为 0 的 数据 做 计算 ee et 
用 水 时 长 用 水 时 长 = 每 条 用 水 数据 时 长 的 和 = (和 下 条 数据 的 则 Aan 
隔 时 间 Z2 + 和 上 条 数据 的 间隔 时 间 Z2) 的 和 ü 
从 划分 出 的 用 水 事件 ， 起 始 数据 的 时 间 到 终止 数据 的 РЕТ 
Да |l ; E 整个 ти Ел. р Hs а 
站 用 水 时 长 时 间 间隔 十 发 送 国 人 记录 整个 用 水 阶段 的 时 长 
用 水 时 长 / 判断 用 水 时 长 占 总 用 水 时 长 的 
总 用 水 时 长 用 水 时 长 与 总 用 水 时 长 的 比值 比重 


-次 完整 用 水 事件 中 ， 对 水 流量 为 0 的 数据 做 计算 
停顿 时 长 停顿 时 长 = 每 条 用 水 停顿 数据 时 长 的 和 = (和 下 条 数据 
的 间隔 时 间 Z2 + 和 上 条 数据 的 间隔 时 间 /2) 的 和 


标记 一 次 完整 用 水 事件 中 的 每 次 
用 水 停顿 的 时 к 


标记 一 次 完整 用 水 事件 中 的 总 停 
顿时 长 


标记 一 次 完整 用 水 事件 中 的 保 顿 
的 平均 时 长 


名 停顿 时 长 i 用 水 事件 中 的 所 有 停顿 时 长 之 和 


平均 停顿 时 长 “| ”一 次 完整 用 水 事件 中 的 所 有 停顿 时 长 的 平均 值 


` 频率 指标 : 统计 一 次 用 水 事件 中 各 种 用 水 操作 的 频率 。 详 细 信息 如 表 10-12 所 示 。 
表 10-12 频数 指标 构建 说 明 
指 标 构建 万 法 说 RH 
停顿 次 数 一 次 完整 用 水 事件 中 关 挥 热 水 的 次 数 之 和 帮助 识别 洗浴 及 连续 洗浴 事件 


' 用 水 量化 指标 : 总 用 水 量 定义 为 在 水 流量 不 为 0 时 ， 一 次 用 水 事件 如 表 10-10 中 每 条 状态 记录 的 水 流量 与 下 一 条 状态 记录 的 时 间 间 隔 的 乘积 ; 平均 水 流量 定义 为 总 用 水 量 与 用 水 时 长 的 商 。 详 细 信 息 如 
表 10-13 所 示 。 


表 10-13 用 水 量化 指标 构建 说 明 


说 RA 
| 总 用 水 量 -每 条 有 水 流 数 据 的 用 水 量 = | ое езйн 
ра Г увя TIn rH Ali Haneke My 


s 十 ahe 22 EL 一 次 用 水 过 程 中 ， 开花 酒 时 平均 水 流量 大 小 
平均 水 流量 і 用 水 量 -7 有 水 流 时 间 (为 热 水 ) | "ҮЛ L/min 


- 用 水 波动 指标 : “水 流量 波动 ”指标 定义 为 当前 水 流 的 值 与 平均 水 流量 差 的 平方 乘 以 持续 时 间 的 总 和 除 以 总 的 有 水 流量 的 时 间 。 同 理 构造 温度 波动 、 热 水 量 波动 、 停 顿时 长 波动 等 指标 。 详 细 信 息 如 
表 10-14 所 示 。 


表 10-14 ”用 水 波动 指标 构建 说 明 
指 Жж 构建 方法 说 明 


水 流量 波动 水 流量 波动 = У ( (КЛС АУА -平均 水 一 次 用 水 过 程 中 ， 开 花 酒 时 水 流量 的 波动 
иык 流量 )”x 持续 时 间 )/ 总 的 有 水 流量 的 时 间 大 小 


; | 停顿 时 长 波动 = 了 工 (( 单 次 停顿 时 长 -平均 а ван 
МИК Е S араа» аграк ненае 次 用 水 过 程 中 ， 用 水 停顿 时 长 的 波动 情 ; 
停顿 时 长 波动 停顿 时 长 )* x 持续 时 间 )/ 总 停顿 时 长 次 用 水 过 程 水 停顿 时 长 的 波动 情况 


(4) 筛选 得 “候选 洗浴 事件 
洗浴 事件 的 识别 是 建立 在 一 次 用 水 事件 识别 的 基础 上 ， 也 就 是 从 已 经 划分 好 的 一 次 用 水 事件 中 识别 出 哪些 一 次 用 水 事件 是 洗浴 事件 。 


首先 ， 用 3 个 比较 宽松 的 条 件 筛选 掉 那 些 非 常 短暂 的 用 水 事件 ， 剩 余 的 洗浴 事件 称 为 “候选 洗浴 事件 ”。 这 3 个 条 件 是 “或 ”的 关系 ， 也 就 是 说 ， 只 要 一 次 完整 的 用 水 事件 满足 任意 一 个 条 件 ， 就 被 判定 
为 短暂 用 水 事件 ， 即 会 被 筛选 掉 。3 个 筛选 条 件 如 下 : 


1) 一 次 用 水 事件 中 总 用 水 量 ( 纯 热 水 ) 小 于 y; 

2) 用 水 时 长 小 于 100s; 

3) 总 用 水 时 长 小 于 120s。 

下 面 对 y 的 合理 取 值 进行 探究 。 洗 澡 的 水 温 一般 为 37~41"C。 因 为 花 酒 喷头 出 水 的 温度 变化 也 在 37~41"C， 所 以 热水器 设 定 温度 越 高 ， 热 水 器 水 的 实际 温度 越 高 ， 热 水 器 热 水 的 使 用 量 就 越 少 。 
经 过 实验 分 析 ， 热 水 器 设 定 温度 为 50"C 时 ， 一 次 普通 的 洗浴 时 长 为 15min， 总 用 水 时 长 10min 左 右 ， 热 水 的 使 用 量 为 10~ 15L, 


为 不 影响 特殊 的 、 短 暂 的 洗浴 事件 ， 以 及 考虑 到 夏天 用 的 热 水 较 少 ， 放 宽 学 围 假定 热水器 在 设 定 温度 为 590"C 时 ， 一 次 洗浴 的 总 热 水 使 用 量 为 5L， 同 时 取 洗 浴 温 度 的 均值 为 39"C， 来 计算 热水器 不 同 设 定 
温度 下 的 热 水 使 用 量 阔 值 。 


热 水 使 用 量 模型 变量 符号 说 明 如 表 10-15 所 示 


#10-15 ”标准 热 水 量 换 工 模 型 符号 说 明 


їй 从 用 水 温度 一 一 设 定 温 Еа А( T) 


Ң 3 7k zk ila 没 定 温度 为 天 时 的 用 水 量 Y( L) 
自来水 注入 量 М ( иу, 50°С 时 的 用 水 量 (51) 


假定 每 次 洗浴 习惯 变化 不 大 且 热 水 器 热 水 水 温 恒定 ， 则 每 次 洗浴 使 用 的 热 水 的 热量 应 该 趋 近 于 一 个 定 值 。 如 果 热 水 器 设 定 温度 X 调 高 使 热水器 水 温 变 高 ， 则 一 次 洗浴 使 用 的 热 水 量 就 减少 ;相反 ， 则 使 用 
的 热 水 量 就 增多 


假设 两 次 洗浴 事件 热 水 和 冷水 混合 后 的 花 酒 出 水 水 温度 恒 为 1， 总 用 水 量 不 变 且 为 (M+V) ， 根 据 热量 守恒 建立 方程 组 
(50-T)xV+(C-T)xM=0 (1) 
(Х-Т)Ә x Y a s (Ü PS x UMU V yy =0 (2) 


式 中 ， 上 式 中 的 (1) 是 50°C 的 热 水 V 与 MC 自来水 混合 得 到 (M+V) T 的 洗浴 用 水 的 热 守 恒 公 式 。 上 式 中 的 (2) 是 X 的 热 水 Y 与 (M+V - Y) 自来水 混合 得 到 (M+V) T 的 洗浴 用 水 的 热 守恒 公式 。 从 而 得 
出 Y 与 X、C、V 之 间 的 关系 : 


y (50-с) ху 
F. E 


式 中 ，V 是 热水器 的 水 恒 为 50"C 洗 浴 时 的 最 低 用 水 量 。 根 据 式 (10-4) 可 以 计算 用 水 事件 在 不 同 实际 用 水 温度 下 的 标准 热 水 使 用 量 。 其 中 ， 自 来 水 每 月 平均 温度 取 平 均 室温 。 


(10-3) 


(10-4) 


3. 数 据 清 洗 


本 案例 中 存在 用 水 数据 状态 记录 缺失 的 情况 ， 需 要 对 缺失 的 数据 状态 记录 进行 添加 。 在 热水器 工作 状态 改变 或 处 于 用 水 阶段 时 ， 热 水 器 每 2s (RAE) 传输 一 条 状态 记录 ， 而 划分 一 次 完整 用 水 事件 
时 ， 需 要 一 个 开始 用 水 的 状态 记录 和 结束 用 水 的 状态 记录 。 但 是 在 划分 一 次 完整 用 水 事件 时 ， 发 现 数据 中 存在 没有 结束 用 水 的 状态 记录 情况 ， 该 类 缺失 值 问题 如 表 10-16 所 示 : 热水器 状态 发 生 改变 ， 第 5 条 
状态 记录 和 第 7 条 状态 记录 的 时 间 间 隔 应 该 为 2s， 而 表 中 两 条 记录 间隔 为 1 小 时 27 分 28 秒 。 


表 10-16 ”状态 记录 中 的 缺失 值 


25 Л, 实 流量 | 加 热 剩余 | 当前 设置 
序号 发 生 时 间 кери 温度 /人 


可 能 是 由 于 存在 网 络 故 障 等 原因 导致 状态 记录 时 间 间 隔 为 几 十 分 钟 甚至 几 小 时 的 情况 ,该 类 问题 若 用 均值 去 填充 会 造成 用 水 时 间 也 为 几 十 分 钟 甚至 几 小 时 较 大 误差 。 对 于 上 述 特 殊 情况 ， 本 案例 数据 
进行 如 下 处 理 : 在 存在 用 水 状态 记录 缺失 的 情况 下 ， 填 充 一 条 状态 记录 使 水 流量 为 0， 发 生 时 间 加 2s， 其 余 属性 状态 不 变 。 即 在 表 10-16 的 第 5 条 状态 记录 和 第 7 条 状态 记录 之 间 加 一 条 记录 ， 即 第 6 条 状态 记 
录 ， 如 表 10-17 所 示 。 


表 10-17 ”状态 记录 中 缺失 值 的 处 理 


10.24 模型 构建 


经 过 数据 预 处 理 后， 得 到 的 建 模样 本 数据 如 表 10-18 所 示 。 


表 10-18 ”部 分 建 模样 本 数据 示例 列表 
是 否 为 
起 始 | 终止 洗浴 PE 平均 
热 ЙА Е F 
MOK | 数据 | 数据 开始 时 间 s | р д | s. н 
要件 = = H Ч + JTT: F 次 数 
编号 | 编号 м. УУ; 
表示 否 Г) 


L/min 


水 流量 
总 时 长 /s| КЛ, i 


ı | 218 | 344 | 2014-10-19 08; 51; 3 ки: эк чишшча рє uh mu pk F 650. 
2 2014-10-19 15; 0 
2.1 0.4 531.4 


根据 建 模样 本 数据 和 用 户 记录 的 包含 用 水 的 用 途 、 用 水 开始 时 间 、 用 水 结束 时 间 等 属性 的 用 水 日 志 ， 建 立 BP 神 经 网 络 模型 识别 洗浴 事件 。 由 于 洗浴 事件 与 普通 用 水 事件 在 特征 上 人 存在 不 同 ， 而 且 这 些 不 
同 的 特征 在 属性 上 被 体现 出 来 。 于 是 ， 根 据 用 户 提供 的 用 水 日 志 ， 将 其 中 洗浴 事件 的 数据 状态 记录 作为 训练 样本 训练 BP 神 经 网 络 。 然 后 根据 训练 好 的 网 络 来 检验 新 采集 到 的 数据 ， 具 体 过 程 如 图 10-6 所 示 。 


洗浴 事件 | 
停顿 时 长 波动 


910-6 ”BP 神经 模型 识别 洗浴 事件 


在 训练 神经 网 络 的 时 候 ， 选 取 了 “候选 洗浴 事件 ”的 11 个 属性 作为 网 络 的 输入 ， 分 别 为 : 洗浴 时 间 点 、 总 用 水 时 长 、 总 停顿 时 长 、 平 均 停 顿时 长 、 停 顿 次 数 、 用 水 时 长 、 用 水 时 长 /总 用 水 时 长 、 总 用 水 
量 、 平 均 水 流量 、 水 流量 波动 、 停 顿时 长 波动 。 训 练 BP 网 络 时 给 定 的 输出 (教师 信号 ) 为 1 与 -1， 其 中 1 代表 该 次 事件 为 洗浴 事件 ，-1 表 示 该 次 事件 不 是 洗浴 事件 。 其 中 ， 是 否 为 洗浴 事件 的 确定 ， 根 据 用 户 
提供 的 用 水 记录 日 志 得 到 。 


在 训练 BP 神 经 网 络 时 ， 对 神经 网 络 的 参数 进行 了 寻 优 ， 发 现 含 两 个 隐 层 的 神经 网 络 训练 效果 较 好 ， 其 中 两 个 隐 层 的 隐 节 点 数 分 别 为 17、10 时 训练 的 效果 较 好 。 
使 用 R 来 训练 BP 神 经 网 络 ， 训 练 样本 为 根据 用 户 记录 的 日 志 标 记 好 的 用 水 事件 ， 详 细 代码 如 代码 清单 10-3 所 示 。 


代码 清单 10-3 ”训练 BP 神 经 网 络 代码 


## 设 置 工作 空间 

# 把 “数据 及 程序 ”文件 夹 复制 到 F 盘 下 ， 再 用 setwd 设 置 工作 空间 

setwd ("Е: /数据 及 程序 /chapter10/ 示 例 程序 ") 

# 训 练 BP 神 经 网 络 

#install.packages ("АМОВЕ") 

library (AMORE) 

data=read.csv ("./data/train neural network data.csv", head=T) # 读 入 训练 数据 
for (i in 5: 16) (data |, i] <- as.numeric (as.vector (data) [, 1]) 

}# 将 数据 处 理 为 可 用 的 numeric 类 型 

inputdata=data [, 6: 16] # 记 录 被 选择 用 来 作为 输入 的 属性 

outputdata=data [, 5] # 记 录 教 师 信 号 所 在 列 

n.neurons=c (11, 17, 10, 1) #11 个 输入 ，2 个 隐 层 ， 分 别 为 17、10 个 节点 ，1 个 输出 
net=newff (n.neurons, learning.rate.global=0.05, momentum.global=0.5, error.criterium="LMS", Stao=NA, hidden.layer="tansig", output.layer="purelin", method="ADAPTgdwm") #6 
# 学 习 率 为 0.05， 采 用 最 小 均 方 LMS 作 为 测量 误差 函数 ， 隐 层 间 传 递 函 数 设 置 为 Lansig,， 

# 输 出 层 传递 函数 为 purelin， 优 先 考虑 ADAPTgdwm 训 练 方法 

result=train (net, inputdata, outputdata, error.criterium="LMS", report=TRUE, 
show. step=100, n.shows=5) 

# 保 存 训练 好 的 BP 神经 网 络 

save (result, file="./tmp/result.RData") 


* 代 码 详 见 : 示例 程序 /code/train_neural_netwotk.R 
根据 样本 ， 得 到 训练 好 的 BP 神 经 网 络 后 ， 就 可 以 用 来 识别 对 应 用 户 家 的 洗浴 事件 ， 其 中 待 检 测 的 样本 的 11 个 属性 作为 输入 ， 输 出 层 输出 一 个 值 在 [-1, 1] 范围 内 ， 如 果 该 值 小 于 0， 则 该 事件 不 是 洗浴 
事件 ， 如 果 该 值 大 于 0， 则 该 事件 是 洗浴 事件 。 


10.2.5 ”模型 检验 


某 热水器 用 户 记录 了 两 周 的 热水器 用 水 日 志 ， 将 前 一 周 的 数据 作为 训练 数据 ， 后 一 周 的 数据 作为 测试 数据 。 使 用 R 来 训练 BP 神经 网 络 ， 代 码 如 代码 清单 10-3 所 示 ， 训 练 好 BP 神经 网 络 模 型 后 ， 用 R 读 入 
后 一 周 的 数据 ， 使 用 代码 清单 10-4 的 代码 来 测试 训练 好 的 BP 神经 网 络 模型 。 


代码 清单 10-4 ”BP 神经 网 络 测试 代码 


HHLA L ZN 

# 把 “数据 及 程序 ”文件 夹 复制 到 F 盘 下 ， 再 用 setwd 设 置 工作 空间 
setwd ("F: /数据 及 程序 /chapter10/ 示 例 程序 ") 

library (АМОВЕ) 

#BP 神 经 网 络 模 型 测试 


# 参 数 初始 化 

netfile = "./tmp/result.RData"; # 神 经 网 络 模型 存储 路 径 

testdatafile = "./data/test neural network data.csv"; # 待 验证 数据 存储 路 径 
testoutputfile = "./tmp/test output data.csv" ; # 测 试 数据 模型 输出 文件 
data=read.csv (testdatafile, header = Т) ; # 读 入 验证 数据 

for (і іп 5: 16) { 

ааба [, i] <- аѕ.питегіс (as.vector (data) [, i] ) 


} # 将 数据 处 理 为 可 用 的 numeric 类 型 

targetoutput=data [, 5] # 记 录 教 师 信 号 所 在 列 ## 神 经 网 络 仿真 
testdata=data Г, 6: 16]; # 和 神经 网 络 输入 形式 

load (netfile) ; # 载 入 训练 好 的 神经 网 络 模型 


output=sim (result$net, testdata) ; ## 仿 真得 到 输出 结果 
[which (output<=0) | = -1 
utput [which (output>0) ] = 1 
PEER 
sum = 0 
for (i in 1: nrow (data) ) { 
if (output [i] ==targetoutput [i] ) { 
sum =sum+1 


} 


} 

cat ("E4 +", sum/nrow (data) ) 

# 导 出 数据 

temp=data.frame (matrix (NA, nrow (data) ‚ 6) ) 

temp [, 1: 5] =data [1: 5] 

temp [, 6] =output 

colnames (temp) = C(" 热 水 事件 ",，" 起 始 数 据 编 号 ",， "终止 数据 编号 ",， "开始 时 间 ",， "根据 日 志 判 断 是 否 为 洗浴 (1 表示 是 ，-1 表 示 否 )",， "神经 网 络 判 断 是 否 为 洗浴 ") 
write.csv (temp, file = testoutputfile, quote = F, row. names = F) 


* 代 码 详 见 : 示例 程序 /code/test_neural_netwotrk.R 


根据 该 热水器 用 户 提 供 的 用 水 日 志 判 断 事件 是 否 为 洗浴 与 BP 神经 网 络 模 型 识别 结果 的 比较 如 表 10-19 所 示 ， 总 共 21 条 检测 数据 ， 准 确 识别 了 17 条 数据 ， 模 型 对 洗浴 事件 的 识别 准确 率 为 80.95%。 


表 10-19 用户 用 水 日 志 判 断 结 果 与 模型 输出 判断 结果 比较 


根据 日 志 判 断 
起 始 数据 编号 | 终止 数据 编号 开始 时 间 是 否 为 洗浴 
(1 表示 是 ，-1 表示 否 ) 


热 水 事 件 


2 
3 2015-01-05 18: : 24 
4 2015-01-05 20. 00. 42 


5 э [пе 2015-01-05 20. 15: 13 
6 2015-01-05 20; 42: 41 
7 2015-01-06 08. 08: 26 
9 
0 
I 


2708 2015-01-06 17: 43: 48 
3284 2015-01-07 10: 01: 


根据 日 志 判 断 
开始 时 间 是 否 为 洗浴 
(1 表示 是 ， с" н 


2015-01-07 13; 32; 43 
2015-01-07 17. 48. 

2015-01-07 18: 26. 49 
2015-01-07 18; 46; 07 


— 1 
16 4411 4538 2015-01-07 19. 18. 08 | Ж | ] 
ШЕ 
соора 


18 2015-01-08 13: 23: 42 
20 2015-01-08 20; 18: 58 
21 2015-01-08 20; 32; 16 


由 于 训练 数据 为 一 周 数据 ， 训 练 样本 过 少 ， 可 能 会 造成 模型 训练 不 准确 ， 但 长 期 让 用 户 记录 用 水 日 志 存在 一 定 的 操作 困难 ， 这 里 模型 检验 用 了 两 周 的 用 户 用 水 日 志 。 


103 ”上 机 实验 


1. 实 验 目 的 
О 使 用 R 对 数据 进行 预 处 理 ， 掌 握 使 用 R 进 行 数据 预 处 理 的 方法 ; 


с 掌握 数据 转换 ， 属 性 提取 过 程 。 


* 对 采集 到 的 热水器 用 户 数据 根据 水 流量 和 停顿 时 间 间 隔 的 阅 值 进行 用 水 事件 划分 


3. 实 验方 法 与 步骤 


1) 打开 R， 使 用 read.csv 国 数 将 “上 机 实验 /data/water_heater.csv” 数 据 读 入 到 R 中 ， 数 据 为 热水器 用 户 一 个 月 左右 的 用 水 数据 ， 数 据 量 为 2 万 行 左右 。 


2) 遍历 元 胞 数组 ， 得 到 用 水 事件 的 序号 、 事 件 起 始 数据 编号 、 事 件 终止 数据 编号 ， 其 中 用 水 事件 的 序号 为 一 个 连续 编号 (1, 2, 3...) 。 根 据 水 流量 的 值 是 否 为 0， 明 确 地 确定 用 户 是 否 在 用 热 水 。 再 根 
据 各 条 数据 的 发 生 时 间 ， 如 果 停 顿时 间 超 过 阅 值 4 分 钟 ， 则 认为 是 2 次 用 水 事件 。 算 法 具体 步骤 可 参考 10.2.3 节 的 数据 变换 中 一 次 完整 用 水 事件 的 划分 模型 ， 也 可 根据 自己 的 理解 编写 。 


3) 使 用 write.csv 函 数 将 得 到 用 水 事件 序号 、 事 件 起 始 数据 编号 、 事 件 终止 数据 编号 等 划分 结果 保存 到 CSV 文 件 中 。 
4. 思 考 与 实验 总 结 
Т) 在 划分 用 水 事件 中 采用 的 阅 值 为 4min， 而 案例 中 有 阅 值 寻 优 的 模型 ， 可 用 阐 值 寻 优 模型 对 每 家 热水器 用 户 每 个 时 间 段 寻找 最 优 的 辣 值 。 


2) 每 家 用 户 一 个 月 左右 的 数据 有 2 万 行 ， 怎 么 优化 算法 与 模型 ， 使 划分 事件 速度 较 快 且 划分 结果 较 好 ? 


104 拓展 思 

根据 模型 划分 的 结果 ， 发 现 有 时 候 会 将 两 次 (或 多 次 ) 洗浴 划分 为 一 次 洗浴 ， 因 为 在 实际 情况 中 ， 人 存在 着 一 个 人 洗 完 澡 后 ， 另 一 个 人 马上 洗 的 情况 ， 这 中 间 过 渡 期 间 的 停顿 间隔 小 于 痊 值 。 针 对 两 次 
(或 多 次 ) 洗浴 事件 被 合并 为 一 次 洗浴 事件 的 情况 ， 需 要 进行 优化 ， 对 连续 洗浴 事件 作 识别 ， 提 高 模型 识别 精确 度 。 

本 案例 给 出 的 连续 洗浴 识别 法 如 下 : 


对 每 次 用 水 事件 ， 建 立 一 个 连续 洗浴 判别 指标 。 连 续 洗浴 判别 指标 初始 值 为 0%， 每 当 有 一 个 属性 超过 设 定 的 阅 值 ， 就 给 该 指标 加 上 相应 的 值 ， 最 后 判别 连续 洗浴 指标 是 否 超 过 给 定 的 阐 值 ， 如 果 超过 给 定 
的 靖 值 ， 认 为 该 次 用 水 事件 为 连续 洗浴 事件 。 


选取 5 个 前 面 章节 提取 得 到 的 属性 ， 作 为 判别 连续 洗浴 事件 的 特征 属性 ，5 个 属性 分 别 为 总 用 水 时 长 、 停 顿 次 数 、 用 水 时 长 /总 用 水 时 长 、 总 用 水 量 、 停 顿时 长 波动 。 详 细 的 说 明 如 下 : 
- 总 用 水 时 长 的 阅 值 为 9000s， 如 果 超 过 900s， 就 认为 可 能 是 连续 洗浴 ， 对 于 每 超出 的 1 秒 ， 在 该 事件 的 连续 洗浴 判别 指标 上 加 上 0.005， 详 情 见 表 10-20。 

` 停顿 次 数 的 阅 值 为 10 次 ， 如 果 超 过 10 次 ， 就 认为 可 能 是 连续 洗浴 ， 对 于 每 超出 的 1 次 ， 在 该 事件 的 连续 洗浴 判别 指标 上 加 上 0.5， 详 情 见 表 10-20。 

用 水 时 长 /总 用 水 时 长 的 阔 值 为 0.5， 如 果 小 于 0.5， 就 认为 可 能 是 连续 洗浴 ， 对 于 每 小 1， 在 该 事件 的 连续 洗浴 判别 指标 上 加 上 2， 详 情 见 表 10-20。 

- 总 用 水 量 的 阀 值 为 30L， 如 果 超 过 30L， 就 认为 可 能 是 连续 洗浴 ， 对 于 每 超出 的 1L， 在 该 事件 的 连续 洗浴 判别 指标 上 加 上 0.2， 详 情 见 表 10-20。 


` 停顿 时 长 波动 的 阅 值 为 1000， 如 果 超 过 1000， 就 认为 可 能 是 连续 洗浴 ， 对 于 每 超出 一 个 单位 ， 在 该 事件 的 连续 洗浴 判别 指标 上 加 上 0.002， 详 情 见 表 10-20。 


表 10-20 ”连续 洗浴 事件 划分 模型 符号 说 明 


属性 名 称 
停顿 次 数 


TT 


总 用 水 时 长 
停顿 时 长 流动 


根据 以 上 信息 建立 优化 模型 ， 其 中 S 是 连续 洗浴 判别 指标 。 


| ‚ р> 10 (10-5) 
O, p e [0,10] | 
4 = рт. а > 30 (10-6) 
0, a e [0,30 | 
0.2х (0.5 —d), 4 <0.5 
lo. d e [0.5,1] 
0. 005 x (t – 900), г > 900 
Pa t e [0,900 | 
y- А 002 х (г — 1000), w > 1000 
0, w є | 0,1000 | 
= Р+А+р+тТ+ (10-10) 


所 以 ， 连 续 洗浴 事件 的 划分 模型 如 下 : 


(10-7 ) 


(10-8 ) 


(10-9) 


* 当 用 水 事件 的 连续 洗浴 判别 指标 5 大 于 5 时 ， 确 定 为 连续 洗浴 事件 或 一 次 洗浴 事件 加 一 次 短暂 用 水 事件 ， 取 中 间 停 顿时 间 最 长 的 停顿 ， 划 分 为 两 次 事件 。 


" 如 果 S 不 大 于 5， 确 定 为 一 次 洗浴 事件 。 
10.5 小结 

本 案例 以 基于 实时 监控 的 智能 热水器 的 用 户 使 用 数据 ， 重 点 介绍 了 数据 挖掘 中 的 数据 预 处 理 的 数据 清洗 、 数 据 规约 、 数 据 变换 等 方法 以 及 数据 预 处 理 在 实际 案例 中 的 应 用 ， 建 立 了 热水器 的 洗浴 事件 识 
别 的 神经 网 络 模型 ， 并 针对 数据 变换 部 分 提供 了 R 语 言 上 机 实验 ， 
第 11 章 ”应 用 系统 负载 分 析 与 磁盘 容量 预测 


111 背景 与 挖掘 目标 


某 大 型 企业 为 了 信息 化 发 展 的 需要 ， 建 设 了 办 公 自动 化 系统 、 人 力 资源 管理 系统 、 财 务 管理 系统 、 企 业 信息 门户 系统 等 几 大 企业 级 应 用 系统 。 因 应 用 系统 在 日 常 运行 时 ， 会 对 底层 软 硬 件 造 成 负荷 。 根 
据 图 11-1 所 示 ， 显 著 影 响应 用 系统 性 能 的 因素 包括 : 服务 器 、 数 据 库 、 中 间 件 、 存 储 设备 。 任 何 一 种 资源 负载 过 大 ， 都 可 能 会 引起 应 用 系统 性 能 下 降 甚 至 瘫痪 。 因 此 需要 关注 服务 器 、 数 据 库 、 中 间 件 、 存 
储 设 备 的 运行 状态 ， 及 时 了 解 当 前 应 用 系统 的 负载 情况 ， 以 便 提 前 预防 ， 确 保 系统 安全 稳定 运行 。 


应 用 系统 


图 11-1 应 用 系统 拓扑 关系 图 


应 用 系统 的 负载 率 可 以 通过 对 一 段 时 间 内 软 硬 件 性 能 的 运行 状况 进行 综合 评分 而 获得 。 通 过 系统 的 当前 负载 率 与 历史 平均 负载 率 进行 比较 ， 获 得 负载 率 的 当前 趋势 。 通 过 负载 率 以 及 负载 趋势 可 对 系统 
进行 负载 分 析 ， 如 图 11-2 所 示 。 当 出 现 应 用 系统 的 负载 高 或 者 负载 趋势 大 的 现象 ， 代 表 系 统 目前 处 于 高 危 工 作 环境 中 。 如 果 系 统管 理 员 不 及 时 进行 相应 的 处 理 ， 系 统 很 容易 出 现 故障 ， 从 而 导致 用 户 无 法 访 
问 系统 ， 严 重 影响 企业 的 利益 。 本 章 重 点 分 析 存 储 设 备 中 磁盘 容量 预测 ， 通 过 对 磁盘 容量 进行 预测 ， 可 预测 磁盘 未 来 的 负载 情况 。 避 免 应 用 系统 出 现存 储 容量 耗 尽 的 情况 ， 从 而 导致 应 用 系统 负载 率 过 高 ， 
最 终 引 发 系统 故障 。 


当前 负载 率 

iHn HH: 

区 域 9: 
当前 负载 率 高 ， 并 且 有 持续 升 高 的 萄 
势 ， 处 于 该 区 域 的 应 用 系统 需要 重点 
关注 

区 域 3，6: 
当前 人 负载 率 低 ， 且 有 增长 的 趋势 ， 该 
区 域内 的 应 用 系统 需要 关注 

区 域 7，8: 
当前 负载 率 高 ， 且 有 增长 或 降低 的 趋 
势 ， 该 区 域 的 应 用 系统 需要 关注 

БІ, 2, 4, 5: 

0 当前 负载 低 ， 增 长 趋势 低 。 该 区 域 的 
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图 11-2 应 用 系统 负载 分 析 


目前 ， 监 控 采 集 的 性 能 数据 主要 包含 CPU 使 用 信息 、 内 人 存 使 用 信息 、 磁 盘 使 用 信息 等 ， 性 能 表 的 说 明 如 表 11-1 所 示 。 通 过 分 析 磁 盘 容 量 相关 数据 ( 见 表 11-2) ， 预 测 应 用 系统 服务 器 磁盘 空间 是 否 满足 
系统 健康 运行 的 要 求 。 请 根据 这 些 数据 实现 以 下 目标 : 


“ 针对 历史 磁 瘟 数据 ， 采 用 时 间 序 列 分 析 方 法 ， 预 测 应 用 系统 服务 器 磁盘 已 使 用 空间 大 小 。 
. 根据 用 户 需求 设置 不 同 的 预警 等 级 ， 将 预测 值 与 容量 值 进行 比较 ， 对 其 结果 进行 预警 判断 ， 为 系统 管理 员 提 供 定制 化 的 预警 提示 。 


表 11-1 性 能 说 明 表 
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某 大 型 企业 为 了 信息 化 发 展 的 需要 ， 建 设 了 办 公 自动 化 系统 、 人 力 资源 管理 系统 、 财 务 管理 系统 、 企 业 信息 门户 系统 等 几 大 企业 级 应 用 系统 。 因 应 用 系统 在 日 常 运行 时 ， 会 对 底层 软 硬 件 造 成 负荷 。 根 


据 图 11-1 所 示 ， 显 著 影 响应 用 系统 性 能 的 因素 包括 : 服务 器 、 数 据 库 、 中 间 件 、 存 储 设备 。 任 何 一 种 资源 负载 过 大 ， 都 可 能 会 引起 应 用 系统 性 能 下 降 甚 至 瘫痪 。 因 此 需要 关注 服务 器 、 数 据 库 、 中 间 件 、 存 


储 设备 的 运行 状态 ， 及 时 了 解 当前 应 用 系统 的 负载 情况 ， 以 便 提 前 预防 ， 确 保 系统 安全 稳定 运行 。 


应 用 系统 


图 11-1 应 用 系统 拓扑 关系 图 


应 用 系统 的 负载 率 可 以 通过 对 一 段 时 间 内 软 硬 件 性 能 的 运行 状况 进行 综合 评分 而 获得 。 通 过 系统 的 当前 负载 率 与 历史 平均 负载 率 进行 比较 ， 获 得 负载 率 的 当前 趋势 。 通 过 负载 率 以 及 负载 趋势 可 对 系统 
进行 负载 分 析 ， 如 图 11-2 所 示 。 当 出 现 应 用 系统 的 负载 高 或 者 负载 趋势 大 的 现象 ， 代 表 系 统 目前 处 于 高 危 工 作 环境 中 。 如 果 系 统管 理 员 不 及 时 进行 相应 的 处 理 ， 系 统 很 容易 出 现 故障 ， 从 而 导致 用 户 无 法 访 
问 系统 ， 严 重 影响 企业 的 利益 。 本 章 重 点 分 析 存 储 设备 中 磁盘 容量 预测 ， 通 过 对 磁盘 容量 进行 预测 ， 可 预测 磁盘 未 来 的 负载 情况 。 避 免 应 用 系统 出 现存 储 容量 耗 尽 的 情况 ， 从 而 导致 应 用 系统 负载 率 过 高 ， 
最 终 引 发 系统 故障 。 


当前 负载 率 

iHn PH: 

区 域 9: 
当前 负载 率 高 ， 并 且 有 持续 升 高 的 萄 
势 ， 处 于 该 区 域 的 应 用 系统 需要 重点 
关注 

区 域 3，6: 
当前 人 负载 率 低 ， 且 有 增长 的 趋势 ,该 
区 域内 的 应 用 系统 需要 关注 

区 域 7，8: 
当前 负载 率 高 ， 且 有 增长 或 降低 的 赵 
势 ， 该 区 域 的 应 用 系统 需要 关注 

КІ, 2, 4, 5: 

0 当前 负载 低 ， 增 长 趋势 低 。 该 区 域 的 
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图 11-2 应 用 系统 负载 分 析 


目前 ， 监 控 采 集 的 性 能 数据 主要 包含 CPU 使 用 信息 、 内 存 使 用 信息 、 磁 盘 使 用 信息 等 ， 性 能 表 的 说 明 如 表 11-1 所 示 。 通 过 分 析 磁 盘 容 量 相关 数据 ( 见 表 11-2) ， 预 测 应 用 系统 服务 器 磁盘 空间 是 否 满足 
系统 健康 运行 的 要 求 。 请 根据 这 些 数 据 实现 以 下 目标 : 


“ 针对 历史 磁盘 数据 ， 采 用 时 间 序 列 分 析 方 法 ， 预 测 应 用 系统 服务 器 磁盘 已 使 用 空间 大 小 。 
. 根据 用 户 需求 设置 不 同 的 预警 等 级 ， 将 预测 值 与 容量 值 进行 比较 ， 对 其 结果 进行 预警 判断 ， 为 系统 管理 员 提 供 定 制 化 的 预警 提示 。 


表 11-1 性 能 说 明 表 
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管理 系统 


* 数 据 详 见 : 


应 用 系统 出 现 故 障 通常 不 是 
。 因 此 可 知 ， 在 不 考虑 人 为 因素 的 景 


采用 时 间 序 列 分 析 法 分 析 磁 盘 性 生 
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分 析 方 法 与 过 程 


突然 次 痪 造成 的 〈 除 非 对 服务 器 直接 断 电 ) ， 
多 响 时 ， 存 储 空间 随时 间 变 化 存在 很 强 的 关联 性 ， 且 历史 数据 对 未 来 的 发 展 人 存在 一 定 的 景 


缴 据 ， 预 测 未 来 的 磁盘 使 用 空间 情况 。 其 挖掘 建 模 的 总 体 流 程 如 图 11-3 所 示 。 


属性 说 明 属性 名 称 


COLLECTTIME 
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采集 到 的 值 
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而 是 一 个 渐变 的 过 程 [1]。 例 如 ， 系 统 长 时 间 运 行 ， 数 据 会 持续 写 入 存储 ， 存 储 空间 逐渐 变 少 ， 最 终 磁盘 被 写 满 而 导致 系统 故 


% 响 ， 故 本 案例 可 采用 时 间 序 列 分 析 法 对 磁盘 已 使 用 空间 进行 预测 分 析 。 
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图 11-3” 建 模 流程 图 
应 用 系统 容量 预测 建 模 过 程 主要 包含 以 下 步骤 : 
1) 从 数据 源 中 选择 性 抽取 历史 数据 与 每 天 定时 抽取 数据 ; 
2) 对 抽取 的 数据 进行 周期 性 分 析 以 及 数据 清洗 、 数 据 变换 等 操作 后 ， 形 成 建 模 数 据 ; 
3) 采用 时 间 序 列 分 析 法 对 建 模 数据 进行 模型 的 构建 ， 利 用 模型 预测 服务 器 磁盘 已 使 用 情况 ， 
4) 应 用 模型 预测 服务 器 磁盘 将 要 使 用 情况 ， 通 过 预测 到 的 磁盘 使 用 大 小 与 磁盘 容量 大 小 按照 定制 化 标准 进行 判断 ， 将 结果 反馈 给 系统 管理 员 ， 提 示 管 理 员 需要 注意 磁盘 的 使 用 情况 。 
11.2.1 数据 抽取 


磁盘 使 用 情况 的 数据 都 存放 在 性 能 数据 中 ， 而 监控 采集 的 性 能 数据 中 存在 大 量 的 其 他 属性 数据 。 为 了 抽取 出 磁盘 数据 ， 以 属性 的 标识 号 (TARGET_ID) 与 采集 指标 的 时 间 (COLLECTTIME) 为 条 件 ， 
对 性 能 数据 进行 抽取 。 抽 取 2014 年 10 月 1 日 至 2014 年 11 月 16 日 财务 管理 系统 中 某 一 台数 据 库 服 务 器 的 磁盘 的 相关 数据 。 


11.22 ”数据 探索 分 析 


由 于 本 例 是 采用 时 序 分 析 法 进行 建 模 ， 为 了 建 模 的 需要 ， 需 要 探索 数据 的 平稳 性 。 通 过 时 序 图 可 以 初步 发 现 数据 的 平稳 性 。 针 对 服务 器 磁盘 已 使 用 大 小 ， 以 天 为 单位 ， 进 行 周期 性 分 析 ， 其 时 序 图 如 图 
11-4 和 图 11-5 所 示 。 
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911-5 D 盘 已 使 用 空间 的 时 序 图 


由 图 11-4 和 图 11-5 可 以 得 知 ， 磁 盘 的 使 用 情况 都 不 具备 周期 性 ， 它 们 表现 出 缓慢 性 增长 ， 呈 现 趋 势 性 。 因 此 ， 可 以 初步 确认 数据 是 非 平 稳 的 。 


11.2.3 


数据 预 处 理 


1 数据 清洗 


在 实际 的 业务 中 ， 监 控 系 统 会 每 天 定时 对 磁盘 的 信息 进行 收集 ， 但 是 磁盘 容量 属性 一 般 情 况 下 都 是 一 个 定 值 (不 考虑 中 途 扩容 的 情况 ) ， 因 此 磁盘 原始 数据 中 会 存在 磁盘 容量 的 重复 数据 。 在 数据 清洗 
过 程 中 ， 剔 除 磁盘 容量 的 重复 数据 ， 并 且 将 所 有 服务 器 的 磁盘 容量 作为 一 个 固定 值 ， 方 便 模 型 预警 时 需要 如 表 11-3 所 示 。 


表 11-3 ”磁盘 容量 表 


SYS_NAME NAME TARGET ID DESCRIPTION ENTITY VALUE 
财务 管理 系统 CWXT_DB 磁盘 容量 52323324 
财务 管理 系统 CWXT_DB MENETI ); 157283328 


2. 属 性 构造 


过 数据 清洗 后 的 磁盘 数据 如 表 11-4 所 示 ， 其 中 磁盘 相关 属性 以 记录 的 形式 存在 数据 中 ， 其 单位 为 KB。 因 为 每 台 服 务 器 的 磁盘 信息 可 以 通过 表 中 NAME、TARGET_ID、ENTITY 三 个 属性 进行 区 分 ， 且 


每 台 服 务 器 的 上 述 三 个 属性 值 是 不 变 的 ， 所 以 可 以 将 三 个 属性 的 值 进行 合并 (本 质 上 是 进行 行列 互 换 操 作 ) ， 构 造 新 的 属性 如 表 11-5 所 示 。 


表 11-4 原始 性 能 


SYS_NAME NAME TARGET_ID DESCRIPTION ENTITY VALUE COLLECTTIME 


财 : 


财务 管理 系统 | CWXT DB BELL E FK] 34270787. 33 2014/10/1 
Ei : 80 


262592. 65 2014/10/1 


务 管理 系统 | CWXT DB 184 


SYS_NAME CWXT_DB; 184. С.\ CWXT_DB: 184. D. \ COLLECTTIME 
财务 管理 系统 34270787. 33 80262592. 65 2014/10/1 


表 11-5 属性 的 性 能 表 


属性 变换 其 R 语 言 代码 如 代码 清单 11-1 所 示 。 


代码 清单 11-1 属性 变换 代码 


setwd ("F: /数据 及 程序 /chapter1l1/ 示 例 程序 ") 


Data= 
除 重复 项 


# M) 


read.csv ("./data/discdata.csv", header=T, encoding='utf-8') 


indexl=which (DataSVALUE==52323324) 
index2=which (DataSVALUE==157283328) 
index=sort (c (indexl, index2) ) 


Data= 


Data |-index, 


# 数 据 变换 


х=пас 


іпдех3<- -duplicated (DataSCOLIE „ш МЕ у 
ta [! index3, | $COLLECTT 


y=Da 
Data= 


rix (DataSVALUE, nrow=47, ncol=2, byrow = T) 


data. frame (Dat ta Г1: 47, 1], х, у) 


colnames (Data) =с ("SYS МАМЕ", "CWX-C", "CWX-D", "COLLECTTIME") 
# 保 存 数 据 


write.csv (Data, "./tmp/chuliData.csv", row.names=T) 


* 代 码 详 见 : 示例 程序 /code/atttibute_transform.R 


11.24 ”模型 构建 
为 了 方便 对 模型 进行 评价 ， 将 经 过 数据 预 处 理 后 的 建 模 数 据 划 分 两 部 分 : 一 部 分 为 建 模样 本 数据 ;， 另 一 部 分 为 模型 验证 数据 。 选 取 建 模 数据 的 最 后 5 条 记录 作为 验证 数据 ， 其 他 数据 作为 建 模样 本 数据 。 


1. 容 量 预测 模型 


本 章 容 量 预测 模型 的 建 模 流程 如 图 11-6 所 示 。 


日 噪声 
检验 


图 11-6 ”容量 预测 建 模 图 
首先 需要 对 观测 值 序列 进行 平稳 性 检验 ， 如 果 不 平稳 ， 需 对 其 进行 差分 处 理 直 到 差分 后 的 数据 平稳 。 当 数据 平稳 后 ， 需 要 对 其 进行 白 噪声 检验 。 如 果 没 有 通过 白 品 声 检验 ， 就 进行 模型 识别 ， 识 别 其 模 
型 属于 AR、MA 和 ARMA 中 的 哪 一 种 模型 。 并 且 通 过 BI1C 信 息 准则 对 模型 进行 定 阶 ， 确 定 ARIMA 模 型 的 p、q 参 数 。 模 型 识别 后 需 进 行 模型 检验 ， 检 测 模 型 残 差 序列 是 否 为 白 噪声 序列 。 如 果 模 型 没有 通过 检 
测 ， 需 要 对 其 进行 重新 识别 。 对 已 通过 检验 的 模型 采用 极 大 似 然 估 计 方 法 进行 模型 参数 估计 。 最 后 应 用 模型 进行 预测 ， 将 实际 值 与 预测 值 进行 误差 分 析 。 如 果 误 差 比 较 小 (误差 阅 值 需 通 过 业务 分 析 进 行 设 


ХЕ) ， 表 明 模 型 拟 合 效果 较 好 ， 则 模型 可 以 结束 。 反 之 需要 重新 估计 参数 。 


模型 构建 的 过 程 中 需要 用 到 以 下 方法 : 
. 平稳 性 检验 : 为 了 确定 原始 数据 序列 中 没有 随机 趋势 或 确定 趋势 ， 需 要 对 数据 进行 平稳 性 检验 ， 否 则 将 会 产生 “ 擅 回 归 ” 的 现象 。 本 章 采 用 单位 根 检验 (ADF) 的 方法 或 者 时 序 图 的 方法 进行 平稳 性 
检验 ， 其 检验 的 结果 如 表 11-6 所 示 ， 时 序 图 的 方法 见 11.2.2 节 。 


表 11-6 平稳 性 检验 结果 


数据 序列 和 名称 平稳 性 XJ BJ p Ë n 阶 差分 后 平稳 
TTE] ПГ 


平稳 性 检验 的 R 语 言 代码 如 代码 清单 11-2 所 示 。 
代码 清单 11-2 平稳 性 检验 代码 


setwd ("F: /数据 及 程序 /chapter1l1/ 示 例 程序 ") 
library (fUnitRoots) 


Data=read.csv ("./data/discdata processed.csv", header=T) 
colnames (Data) =c ("SYS МАМЕ", "COLLECTTIME", "САС", "CWD") 
attach (Data) 

# 单 位 根 检 验 
adfTest (CWD) 
# 一 阶 差 分 单位 根 检验 
adfTest (diff (сир) ) 


* 代 码 详 见 : 示例 程序 /code/stationatity_test.R 


. 白 噪 声 检验 : 为 了 验证 序列 中 有 用 的 信息 是 否 已 被 提取 完毕 ， 需 要 对 序列 进行 白 噪 声 检 验 。 如 果 序 列 检验 为 白 品 声 序 列 ， 就 说 明 序 列 中 有 用 的 信息 已 经 被 提取 完毕 了 ， 剩 下 的 全 是 随机 扰动 ， 无 法 进 
行 预测 和 使 用 。 本 章 采 用 LB 统计 量 的 方法 进行 白 噪 声 检 验 ， 其 结果 如 表 11-7 所 示 。 


表 11-7 аф RAR 


数据 序列 名 称 对 应 的 pp 值 
D ñ -4.584 x107 


白 噪 声 检验 的 R 语 言 代码 如 代码 清单 11-3 所 示 。 


代码 清单 11-3 ”和 白 噪 声 检 验 代码 


setwd ("F: /数据 及 程序 /chapter11/ 示 例 程序 ") 

Data=read.csv ("./data/discdata processed.csv", header=T) 
colnames (Data) =c ("SYS NAME", "COLLECTTIME", "CWC", "CWD") 
attach (Data) 
# 白 噪声 检验 
Box.test (CWD, type="Ljung-Box") 


* 代 码 详 见 : 示例 程序 /code/whitenoise_test.R 


模型 识别 : 采用 极 大 似 然 比方 法 进行 模型 的 参数 估计 ， 估 计 各 个 参数 的 值 。 然 后 针对 各 个 不 同 模 型 ， 采 用 BIC 信 息 准 则 对 模型 进行 定 阶 ， 确 定 p、d 参 数 ， 从 而 选择 出 最 优 模型 。 根 据 此 方法 选择 的 模 
型 ，BIC 值 图 如 图 11-7 所 示 ， 其 结果 如 表 11-8 所 示 。 
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图 11-7 模型 BIC 值 图 


表 11-8 模型 结果 
数据 序列 模型 类 型 最 小 BIC 值 
D 盘 使 用 大 小 АВТМА(0, 1, 1) 1396. 95 


模型 识别 的 R 语 言 代码 如 代码 清单 11-4 所 示 。 


代码 清单 11-4 ”模型 识别 代码 


setwd ("Е: /数据 及 程序 /chapter1l1/ 示 例 程序 ") 
library (TSA) 
Data=read.csv ("./data/discdata processed.csv", header=T) 


colnames (Data) =c ("SYS МАМЕ", "COLLECTTIME", "СИС", "CWD") 

attach (Data) 

#BIC 图 

res=armasubsets (y=CWD, nar=5, nma=5, y.name='test', ar.method='ols') 
plot (res) 


# 选 择 拥 有 最 小 bic 值 得 Pp、9q 值 


auto.arima (CWD, , ic="bic") 


* 代 码 详 见 : 示例 程序 /code/find_optimal_pg.R 


` 模型 检验 : 模型 确定 后 ， 检 验 其 残 差 序列 是 否 为 白 噪声 。 如 果 不 是 白 噪声 ， 说 明 残 差 中 还 存在 有 用 的 信息 ， 需 要 修改 模型 或 者 进一步 提取 。 本 案例 由 于 初始 模型 没有 通过 检验 ， 所 以 对 其 进一步 修改 


P、q 参 数 ， 重 复 用 模型 识别 的 方法 确认 模型 ， 直 到 模型 通过 检验 才 停止 。 通 过 模型 检验 的 模型 结果 如 表 11-9 所 示 。 
表 11-9 ”符合 残 差 检验 模型 结果 


数据 序列 模型 类 型 平稳 性 检验 p {Н 随机 性 检验 р 值 
D 盘 使 用 大 小 ARIMA(0, 1, 2 0. 7399 


模型 检验 的 R 语 言 代码 如 代码 清单 11-5 所 示 。 


代码 清单 11-5 ”模型 检验 代码 


setwd ("Е: /数据 及 程序 /chapter11/ 示 例 程序 ") 

library (forecast) 

Data=read.csv ("./data/discdata processed.csv", header=T) 
colnames (Data) =c ("SYS NAME", "СОТТЕСТТТМЕ", "СИС", "CWD") 
attach (Data) 

ml=arima (CWD, order = c (0, 1, 1) ) 

rl=ml$residuals 

# 对 残 差 进行 平稳 性 检验 

adfTest (r1) 

# 对 残 差 进行 随机 性 检验 

Box.test (rl, type="Ljung-Box") 

m2=arima (CWD, order = c (0, 1, 2) ) 

r2=ml$residuals 

# 对 残 差 进行 平稳 性 检验 

adfTest (r2) 

# 对 残 差 进行 纯 随机 性 检验 

Box .test (r2, type="Ljung-Box") 


* 代 码 详 见 : 示例 程序 /code/atrima_model_check.R 


. 模型 预测 : 应 用 通过 检验 的 模型 进行 预测 ， 获 取 未 来 5 天 的 预测 值 。 为 了 方便 比较 ， 将 单位 换算 成 GB， 其 结果 如 表 11-10 所 示 。 


未 来 天 数 
| 83. 506 51 
2 83. 482 15 


#11-10 预测 结果 


实际 值 
3. 207 45 
2. 956 45 
2. 662 81 
5. бОё1 


А 
82 
63. 482 15 Š 
Q 
69. 237 05 


2. 模 型 评价 
为 了 评价 时 序 预测 模型 效果 的 好 坏 ， 本 章 采用 三 个 衡量 模型 预测 精度 的 统计 量 指标 : 平均 绝对 误差 、 均 方 根 误差 、 平 均 绝对 百 分 误 差 。 这 三 个 指标 从 不 同 侧面 反映 了 算法 的 预测 精度 [9 
选择 建 模 数 据 的 后 5 条 记录 作为 实际 值 ， 将 预测 值 与 实际 值 进行 误差 分 析 ， 模 型 的 各 个 评价 指标 值 如 表 11-11 所 示 。 


表 11-11 模型 评价 表 


平均 绝对 误差 均 方 根 误差 平均 绝对 自分 误差 


模型 评价 R 语 言 代码 如 代码 清单 11-6 所 示 。 
代码 清单 11-6 ”模型 评价 代码 


setwd ("F: /数据 及 程序 /chapter1l1/ 示 例 程序 ") 
Data=read.csv ("./data/predictdata.csv", header=T) 


colnames (Data) =c ("num", "pre", "real") 
attach (Data) 

#mae 

mae=mean (abs (pre-real) ) 

#rmse 


rmse=mean ( (pre-real) ^2) 


#таре 
mape=mean (abs (рге-геа1) /геа1) 


* 代 码 详 见 : 示例 程序 /code/cal_ertors.R 

结合 实际 业务 分 析 ， 将 误差 阐 值 设 定 为 1.5。 表 11-11 中 实际 值 与 预测 值 之 间 的 误差 全 都 小 于 误差 阅 值 。 因 此 ， 模 型 的 预测 效果 在 实际 业务 可 接受 的 范围 内 ， 可 以 采用 此 模型 进行 预测 。 
3. 模 型 应 用 

在 上 述 模 型 构建 完成 后 ， 就 可 以 对 模型 进行 应 用 ， 实 现 对 应 用 系统 容量 预测 ， 其 模型 应 用 过 程 如 下 : 


1) 从 系统 中 每 日 定时 抽取 服务 器 磁盘 数据 ; 


2) 对 定时 抽取 的 数据 进行 数据 清洗 、 数 据 变换 预 处 理 操作 ， 


预测 磁盘 已 使 用 的 值 


计算 磁盘 的 预测 使 用 率 


到 预警 级 别 ? 


按照 格式 发 布 预警 信息 


图 11-8 预警 流程 图 


3) 将 预 处 理 后 的 定时 数据 存放 到 模型 的 初始 数据 中 ， 获 得 模型 的 输入 数据 ， 调 用 模型 对 服务 器 磁盘 已 使 用 空间 进行 预测 ， 预 测 后 ?天 的 磁盘 已 使 用 空间 大 小 ; 
4) 将 预测 值 与 磁盘 的 总 容量 比较 ， 获 得 预测 的 磁盘 使 用 率 。 如 果 某 一 天 预测 的 使 用 率 达 到 业务 设置 的 预警 级 别 ， 就 会 以 预警 的 方式 提醒 系统 管理 员 。 
模型 应 用 的 预警 流程 图 如 图 11-8 所 示 。 


其 中 ， 预 警 等 级 的 设 定 需要 结合 实际 应 用 ， 根 据 业 务 的 应 用 一 般 设 置 的 闪 值 如 表 11-12 所 示 ， 也 可 以 根据 管理 员 要 求 进行 相应 的 调整 ， 调 整 使 用 率 的 闪 值 即 可 。 如 果 预 测 值 达 到 预警 等 级 以 上 ， 可 以 发 
布 预警 信息 ， 其 示例 如 表 11-13 所 示 ， 提 示 管 理 员 注 意 ， 需 要 清理 磁盘 或 者 准备 扩容 ， 以 保证 应 用 系统 的 健康 运行 。 


#11-12 BAREK 


预测 已 使 用 空间 率 预警 等 级 
85% | 
90% ll 
95% 


表 11-13 预警 信息 格式 


属性 名 称 
p. 该 服务 器 磁盘 D 盘 使 用 率 预计 在 2014 年 11 月 12 日 将 达到 85% 以 上 


因为 模型 采用 历史 数据 进行 建 模 ， 随 着 时 间 的 变化 ， 每 天 会 定时 地 将 新 增 数据 加 入 初始 建 模 数据 中 。 正 常 的 情况 下 ， 模 型 需要 重新 调整 。 但 考虑 到 建 模 的 复杂 性 高 ， 且 磁盘 的 已 使 用 大 小 每 天 的 变化 量 
相对 很 小 ， 对 于 整个 模型 的 预测 影响 较 小 。 因 此 ， 结 合 实际 业务 情况 ， 模 型 每 半 个 月 进行 一 次 调整 。 


[1] 束 守 正 ， 丁 富强 ， 装 国 才 . 云 计算 环境 下 业务 系统 健康 度 模型 研究 [J] .电信 技术 ，2014， (03) : 86-90. 
[2] 张 利 .基于 时 间 序 列 ARIMA 模 型 的 分 析 预 测算 法 研究 及 系统 实现 [D ] .江苏 大 学 .2008. 


113 ”上 机 实验 


1. 实 验 目 的 
.了解 时 间 序 列 算法 的 用 法 以 及 利用 时 间 序 列 算法 构建 预测 模型 的 流程 。 


. 掌握 R 语 言 实现 时 间 序 列 算法 的 检验 和 预测 的 过 程 ， 以 及 模型 的 误差 分 析 。 


通过 服务 器 的 历史 磁盘 数据 ， 根 据 时 间 序 列 算法 模型 的 流程 ， 预 测 未 来 磁盘 的 使 用 情况 。 为 了 方便 对 模型 进行 误差 分 析 ， 将 服务 器 的 磁盘 数据 划分 模型 输入 数据 与 模型 验证 数据 。 采 用 时 间 序 列 算法 对 
模型 输入 数据 进行 模型 拟 合 、 检 验 与 预测 。 依 据 误差 公式 ， 计 算 预测 值 与 验证 数据 之 间 的 误差 ， 分 析 其 是 否 属于 业务 接受 的 范围 内 。 


sà 
$ 


采用 R 语 言 读 取 数 据 文 件 ， 按 照 划分 规则 将 数据 划分 为 两 个 部 分 ， 并 将 其 进 和 


* 调用 R 语 言 内 置 函 数 ， 编 写 代码 实现 本 例 模型 构建 的 流程 。 对 模型 输入 数据 进行 平稳 性 检验 和 差分 ， 记 录 差 分 阶 数 。 采 用 BIC 准 则 确定 模型 的 参数 ， 依 据 各 个 参数 构建 时 序 模型 ， 并 对 模型 进行 相关 的 


检验 。 
` 采用 通过 检验 的 模型 进行 预测 ， 比 较 预 测 值 与 验证 数据 的 大 小 ， 计 算 其 误差 。 利 用 误差 公式 ， 编 写 R 语 言 代码 ， 并 分 析 误 差 是 否 处 于 业务 接受 的 范围 内 。 
3. 实 验方 法 与 步骤 
1) 打开 R 语 言 ， 使 用 xlsread 函 数 将 数据 文件 读 入 R 语 言 工 作 空间 中 ， 选 择 要 进行 时 序 预测 的 磁盘 数据 ， 截 取 最 后 5 条 数据 为 验证 数据 ， 其 他 数据 为 模型 输入 数据 。 
2) 确定 ARIMA 模 型 的 qd 参数， 即 差分 阶 数 。 使 用 adfTest 印 数 确定 输入 数据 是 否 平稳 化 ， 如 果 不 平稳 ， 则 使 用 diff 函 数 进行 差分 ， 记 录 差 分 的 阶 数 ;， 否则 d 值 为 0， 并 直接 进行 下 一 步 。 
3) 确定 ARIMA 模 型 的 p、q 参 数 。p、q 参 数 的 取 值 范围 为 [0，N/10] ， 选 择 不 同 的 p、q 值 ， 计 算 输入 数据 的 BIC 值 。 当 BIC 值 取 最 小 值 时 的 p、9q 值 即 是 所 求 。 


4) 使 用 arima 函 数 以 及 前 面 得 到 的 p、d、q 构 建 ARIMA 模 型 ， 确 定 模型 的 其 他 参数 ， 使 用 adfTest、Box.text 函 数 计算 模型 残 差 白 噪 声 。 检 验 其 是 否 通过 白 噪 声 检 验 ， 如 果 不 通过 则 返回 3) 去 掉 上 一 步 
的 p、q 组 合 重新 进行 计算 ; 如 果 通 过 则 进行 下 一 步 。 


5) 使 用 forecast 国 数 进 行 时 序 预测 ， 并 把 实际 值 和 预测 值 进行 对 比 ， 计 算 其 误差 。 


1) 用 其 他 的 方法 进行 平稳 性 检验 ， 如 游程 检验 、 自 相关 系数 分 析 等 。 


2) 采用 其 他 的 方法 进行 模型 定 阶 ， 确 定 p 与 q 的 参数 值 。 


114 拓展 思考 


监控 不 仅 能 够 获取 软 硬 件 的 性 能 数据 ， 同 时 也 能 检测 到 软 硬 件 的 日 志 事件 ， 并 通过 告警 的 方式 提示 用 户 。 在 监控 的 告警 表 中 人 存在 很 多 类 别 的 告警 ， 其 中 服务 器 类 的 告警 包含 : CPU 告警 、 内 存 告 警 、 磁 
REZ, 数据 库 类 的 告警 包含 : 日 志 告警 、 表 空间 告警 ; 网络 类 型 的 告警 包含 : PING 告 警 、TELNET 告 警 ， 以 及 应 用 系统 类 别 的 告警 。 一 旦 应 用 系统 发 生 故障 ， 则 会 影响 整个 公司 的 利润 。 因 此 ， 管 理 员 在 
维护 系统 的 过 程 中 ， 特 别 关 注 应 用 系统 类 别 的 告警 。 但 是 在 监控 收集 性 能 以 及 事件 的 过 程 中 ， 有 时 会 存在 信息 收集 有 误 的 情况 ， 因 此 各 类 型 告警 会 出 现 误 告 (应 用 系统 发 生 误 告 时 系统 实际 处 于 正常 阶 
段 ) 。 

根据 历史 每 天 的 各 种 类 型 的 告警 数 ， 通 过 相关 性 进行 检验 判断 哪些 类 型 告警 与 应 用 系统 真正 故障 有 关 ， 其 原始 数据 如 表 11-14 所 示 。 通 过 相关 类 型 的 告警 ， 预 测 明 后 两 天 的 告警 数 。 针 对 历史 的 告警 数 
与 应 用 系统 的 关系 ， 判 断 系 统 未 来 是 否 发 生 故 障 。 首 先 通过 时 序 算法 预测 未 来 相关 类 型 的 告警 数 ， 然 后 采用 分 类 预测 算法 对 预测 值 进行 判断 ， 判 断 系 统 未 来 是 否 发 生 故 障 (针对 原始 数据 可 以 选择 一 部 分 数 
据 进 行 时 序 预测 ) 。 


表 11-14 系统 告警 原始 数据 


日 期 

2013/01/01 
2013/01/02 
2013/01703 
20137/01704 
2013/0105 
2013/01/06 
2013,01/07 
2013/01/08 
20137/01709 
2013/01/10 
2013/01/11 
2013/01/12 
2013/01713 
2013/01/14 
2013/01/15 
2013/01/16 
2013/01/17 
2013/01/18 
2013/01719 
2013/01/20 
201 
2013/01/22 
2013/01/23 
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11.5 


本 


小 结 


章 结合 应 用 系统 磁盘 容易 预测 的 案例 ， 重 点 介绍 了 数据 挖掘 算法 中 时 间 序 列 分 析 法 在 实际 案 


相应 的 算法 以 及 整个 数据 挖掘 流程 提供 了 R 语 言 上 机 实验 。 


第 12 草 电子 商务 智和 


12.1 


随 


困难 ， 在 电子 商务 领域 这 点 显得 更 加 突出 。 因 此 ， 信 | 


过 载 问题 ， 用 户 通过 输入 关键 词 ， 搜 索引 警 就 会 


与 搜索 引 警 不同， 推荐 系统 并 不 需要 用 户 提供 明确 的 需求 ， 而 是 通过 分 析 用 户 的 历史 行为 从 而 使 用 户主 动 推荐 能 够 满足 他 们 兴趣 和 需求 的 信息 。 
工具 。 搜 索引 警 满足 有 明确 目的 的 用 户 需 求 ， 而 推荐 系统 能 够 帮助 用 户 发 现 其 感 兴 趣 的 内 容 。 
高 用 户 对 电子 商务 网 站 的 忠诚 度 ， 如 果 推 荐 系统 能 


提升 用 


育 景 与 挖 据 目 标 


着 互联 网 和 信息 


户 体验 ; B, 


群 ， 提 高 用 户 满意 度 。 


本 例 主要 研究 的 对 象 是 北京 某 家 法 律 网 站 ， 
决 方案 。 随 着 其 网 站 访问 量 增 大 ， 其 数据 信息 量 也 在 大 幅 增长 。 用 户 在 面 对 大 量 信息 时 无 法 及 时 从 中 获得 自己 需要 的 信息 ， 
费 大 量 的 时 间 才 能 找到 自己 需要 的 信息 
户 的 兴趣 点 。 从 而 引导 用 户 发 现 自己 的 信息 需求 ， 将 长 尾 网 页 准确 地 推荐 给 所 需 用 户 ， 帮 助 用 户 发 现 他 们 感 兴 


让 用 户 对 推荐 系统 产生 依赖 ， 从 而 建立 稳定 的 企业 忠实 顾客 群 ， 实 现 客户 链 式 反应 增值 ， 提 高 消费 者 满意 度 。 


技术 快速 发 展 ， 电 子 商务 、 网 上 服务 与 交易 等 网 络 业务 越 来 越 普及 ， 大 量 的 信息 聚集 起 来 形成 海量 信息 。 


2З ЕЗ Бр 


用 户 想 要 从 海量 信息 
息 过 载 的 问题 已 经 成 为 互联 网 技术 中 的 一 个 重要 难题 。 为 了 解决 这 个 问题 ， 
给 用 户 与 输入 的 关键 词 相关 的 信息 。 但 是 无 法 解决 用 户 的 很 多 其 他 需求 ， 如 用 户 无 法 找到 准确 描述 自己 需求 的 关键 词 时， 搜索 引 上 


因此 ， 在 电子 商务 领域 中 推荐 技术 可 以 起 到 以 下 作用 : 第 一 ， 


是 一 家 电子 商务 类 的 大 型 法 律 资讯 网 站 ， 其 致力 于 为 用 户 提供 丰富 的 法 律 信 ! 
对 信息 的 使 用 效率 越 来 越 低 。 这 种 浏览 大 量 无 关 信 ， 
， 从 而 使 得 用 户 不 断 流失 ， 对 企业 造成 巨大 的 损失 。 为 了 能 够 更 好 地 满足 用 户 需求 ， 依 据 其 网 站 海量 的 数据 ， 研 究 用 户 的 兴趣 偏好 ， 

到 但 很 难 发 现 的 网 页 信息 


案例 中 的 应 用 ， 并 详细 地 描述 了 系统 磁盘 容量 预测 数据 挖掘 以 及 时 间 序 列 分 析 建 模 的 整个 过 程 。 


息 中 快速 准确 地 寻找 到 自己 感 兴趣 的 信息 
搜索 引擎 就 证 生 了 ， 如 Google、 百 度 等 。 搜 索引 擎 在 一 定 程 度 上 缓解 了 信息 
擎 就 无 能 为 力 了 。 


因此 ， 对 于 用 户 而 言 推荐 系统 和 搜索 引 | 从 
帮助 用 户 发 现 其 感 兴趣 的 物品 ， 节 省 用 户 时 间 、 
准确 地 发 现 用 户 的 兴趣 点 ， 并 将 合适 的 资源 推荐 给 用 户 ， 用 户 就 会 对 该 电子 商务 网 站 产生 依赖 ， 从 而 建立 稳定 的 企 


息 的 过 程 ， 


故障 类 别 
0 
0 
0 


息 与 专业 咨询 服务 ， 并 为 律师 与 律师 事务 所 提供 卓有成效 的 互联 网 整合 营销 解 
造成 了 用 户 需要 人 花 
分 析 用 户 的 需求 和 行为 ， 发 现 用 
。 为 用 户 提供 个 性 化 的 服务 ， 并 且 建 立 网 站 与 用 户 之 间 的 密切 关系 ， 

通过 提高 服务 效率 帮助 消费 者 节约 交易 成 本 等 ， 制 定 有 针对 性 的 营销 战略 方针 ， 促 进 企业 长 期 


同时 ， 对 其 


经 变 得 越 来 越 


警 是 两 个 互补 的 


业 忠 实 顾客 


稳定 高 速 发 展 。 


目前 ， 网 站 上 已 经 存在 部 分 推荐 ， 如 当 访 问 主页 时 可 以 在 婚姻 栏目 发 现 如 下 热点 推荐 ， 如 图 12-1 所 示 。 当 访问 具体 的 知识 页 面 时 ， 可 以 在 页 面 的 右边 以 及 下 面 发 现 也 存在 一 些 热点 推荐 和 基于 内 容 的 关 
键 字 推荐 ， 如 图 12-2 所 示 。 


婚姻 法 律 咨询 \ _ 


LZ ББ 12-27 
о рН ИЧЕ 12-27 
[E] 高 晤 时 分 割 房产 的 几 个 问题 12-27 
国 明智 女人 选择 婚前 功放 12-27 
H RESES ， 但 不 知道 怎么 办 理 12-27 
06 ЕЕ шн 12-27 ”婚姻 法 律 弄 识 ` 
国 结 竹 的 特征 号 什么 ? 12.27 BEF | 重婚 排 的 犯 撞 嫌疑 人 追究 州 事 南 任 的 程序 有 两 种 
СРЕТНЕ ВЕЕ 1227 - 抚养 费 | 抚养 费 的 支付 标准 和 支付 方式 
was 夫妻 一 方 以 ”12-27 - PA | 彩礼 应 香 返 还 机 关注 应 返还 的 情形 

11-30. 感情 破裂 | 高 婚 时 如 何 认定 又 夫 填 感情 破 守 


”男方 有 外 过 , НЕЕ, 财产 怎么 分 前 ?了 小 护 判 给 淮 ? 


图 12-1 主页 热点 推荐 
协议 离婚 后 反悔 
作者 : ЛЕ 来 源 : 未 知 2013-12-27 18:24 


ЕВЕ ла ы, 一 万 及 民 悔 的 ， 能 十 各 法 院 起 
ЖТ 这 种 情形 下 ,一般 可 作 和 如 下 几 种 判断 : 


l. ААВ, РН о ҮШ КЕЛЕН, ШПОН 
Bm aF EB а 3870 [W#a | 


2, 一方 对 寅 婚 协议 中 的 内 容 芭 怖 的 ， 可 以 在 一 年 以 内 向 人 民法 院 起 诉 要 ВИША НИЕ АЙА 
ЖИНА. BREASTS RANE, PERERA SENE BETER ЕЛЕГИНЕ СЕНЕН 
激 。 


ЭЗЕН 485 


3 ,一方 对 子女 的 要 求 变 更 的 可 以 向 人 民法 院 起 诉 。 如 不 具有 变更 权 的 正 O аА АНЗ ТЖ 
BL HREINA | 


ыда “Же” БЕВЗ ААЛУ 
Жа л Н), пша Жашо ЕЕ ЛОВУ ЕТТ 
рет: 


_ 在 法 国 提出 离婚 全 对 居留 产生 不 利用 

. 夫 雪 双方 守 毁 时 保险 峙 产 如 何 分 吧 

. БИЖИНЕР ESADE пту 

- 公司 股份 是 否 应 当 作为 婚前 财产 进行 分 浊 

- йр БЕ ЕЗЫ ЛЕ > hye £, Н НИНЕ 
нна А іт 

жш ТЕРЕТ 

-HEATER EARN ы TE RE 


图 12-2 ”婚姻 知识 目前 的 推荐 


当 用 户 访问 网 站 页 面 时 ， 系 统 会 记录 用 户 访问 网 站 的 日 志 ， 其 访问 的 数据 记录 如 表 12-1 所 示 。 


表 12-1 用 户 访 问 记 录 表 


1531222050 


ПнУ 


4223738715 


I11D0541086 


aT 


455855558 


1571237319 


2092450817 


1121453201 


25361650547 


409120636 


1699823729 


1251332336 


25B6839161 


3828223445 


ШИБЕР ЕД 


2119326750 


274126125 12 


МАЛГАН 


3423224433 


3473223433 


140100 


1531722030 | 


reah Ar 
васойа 


140100 


ПЕТЕ Б 


140100 


130100 


Б 
140100 


БЕ 


L40100 


] 人 TU 


апп 


БИ 


UCWER2, Or MIDP-32 0: U: 
zh-CN: HTE 9060) UZ 1. 0, Ü 
Di Brrwaer 10. 1. 3. 5386 
1.0.0 Mobile 


MWER Z, p MIDF-2. D: Uu; 


ЫШ 


zh-CN; HTC 908601) D27271. ü. ü 


UCBrowaee 10. 1. 3. 546 П 


1.0.0 Mobile 


М Шаг. OF Windmes NT 8.11 
Ар = WebKit 337. 36 í KHT- 
МІ. lika trecke ) Chrome 31. 0 
100, 83 бајат SAT, Мз 


МПа 5. OW Whirlowa AT 6.1) 
Apple ерки 37, 36 i KHT- 
Mi, like Larka} {Коа 31, U, 
1650_.63 Ә®д[шп„^5%7. 36 


Kimala О Windows AT 5.11 
Appl ЫК А537. 36 ( KHIML, 
like Gacko) Chrome 3]. О. 1650 
A Salari те. ЗВ 


Milla S пон NT В. 1; 

OWS) Apple Кд” S37. 3 
ГКНТ. like Gecko} Chrume 
11.0. 1650. 63 Salari 537. 36 


Molla OF пон NT 5,1) 
Арр еъ” 537. 36 ( KHTML, 
ike Gecko | Chrome 3l 0, 163} 


1 БЕО. di Kl 

Moala s Or Wink NT 5.1) 
AppeWebKit 537, 36 ( KHTML, 
ike ocko } Chrome S1, ü, 1631. 
at МШШ” ,Ml 


М Шага, ПЧ Window NT 6.1) 
AppleWebKit/537, 36 { KHT- 
W like Gerko} Chroma” $6, 0, 
985. 125 Sahuri 537.30 

Morillas. Ù ( compatible; 

SIE 8. 0: Windows NT 5. 1: 
[rient 0. NET CLR 2.0. 

T27: NET CLR 3. 0. 4505 
ел. МЕТ CLR 3. 5. 30729; 
lihu theworld } 

Moenla 5. OF Macininah : Intel 
Га 0S X 10_9_ 53 Apple Web- 
1537, 78. 2 [ KHTML, like 
acko Version T. Ü. 6 Safari 
ЗГ. rë. 2 


Moail iS, СОН Windows AT 5.11 
AppleWebKite537. 36 ¿ KHT- 
МІ. hke eeka l ChreznezZ31_. Q. 
1690. 63 Salari 337. 36 


Махае. О Windmes МЇ 6.1; 
mr 27, (К 
Fireloex 37. Ü 


Маг S. Ы Winden NT б. |: 
ЧОБ) Apple WebKit S537. 1& 
I EHTM tke Gecko h hroms” 
35. 0, 2125. 122 Salam 547, 36 


Мага, (K иба. NTG, 1) 
Äpple WebKit 547 
ML, Bke Gecko} Chrome 31. 0. 
1050. 63 Salari 537. 16 

Mozilla’ S, 0i Macinioah ; Insel 
Мас US X TO _9_5) Appk Web- 
Rite Sa. To, Z Т KHTML, like 


Geuka} Vemi” T. Ú. 6 Suin 


Willa 0 ены NT б. 1; 
TOWS) Арне еки 37. 36 
К EHTML like Gerko } Chroma 
58.0. 1850. 63 Salari 337. 36 
ҺЕ. 2. X МешЕг 1.0 


Мааа. OF Wind NT б, 1 ; 
Trident" T, Ü. ry: 11. OY like 
Gecko 


оп, Oi Windows NT ñ. 1} 
ppble WebRit S37. 36 { KHT- 
11, Шке Gecko) Chrome 38. Q. 
125, 122 Salari 37. 36 


Маз. OF Windows NT б. 1; 

СЫ Аре WebKit#537. 36 

ЕНТМ like Gecko Chrome 
ЕТО. 1650. 63 Satar 547, 15 


Moala. D Í compatible; 
ISIE 10, Q: Windows NT 6, l: 
EOSS, Trient G Di Ln Ep 
СО МП! 


MiagillaZ s, 
ASIE 10. 0; Windows NT 6.1; 
КО: Tridenti. Ü, F34SExalnresr 

0.0 141365 


Di oampatible; 


кайп i ST. © С war 


тіпа XF 


Windas T 


rcs XP 


лоны 7 


тенета NE 


бае OS X 


псів XF 


Gecko F00010] (Windows 了 


36 ( KHT- |. 


ТЕН loss т 


user|D 


459670012. ] 


2593421815 


oan. 1 


1610868312 


11698939_1 


352350012. 1 


L2439967181 


Bü243139.1 


ТО. 1 


1549121760 


796095316 


LERI l 


[30849692 


1506496592 


client O 


49067001. 1 


O67012. 1 


12%9341818E 


gOS 70090. 1 


AUSER 749 


1610968312 


1716969 39_ | 


632234036 


130917695 


316725705 


3623380012, 1 


1212996761 


U4139. 1 


AH], 1 


599121740 


796085316 


БЕКЕ ЕП 


1540849692 


150859692 


плату 


1428041479371 


142801470536 


І42959 34217 


1426579834667 


142381985415 


la SAGT 


| 428594856364 


|4298492549568 


Ат Оу TSO 


AFRIG 807 


425978540658 


1429442755830 


1423387100054 


LASUR sas 


4214509890092 


Өз | 690 


3428378107184 


428B486243962 


Атат 


ле ЕЕ ГД 


430291567285 


с 
F. 


гуен Гато, iomal 


20152473 1411 


Иза 1411 


2152742718 EAT 


015,317 16:10 


WISA ll 12.25 


157271 9.43 


2015247 16:21 


2015747254 12.20 


GISA [3.42 


гане 
AILOGA, ntmil 


аяк guerini _ 


3499451. Һа] 


A nak question 


8399551. kiml 


гашен 


10937991. Во] 


анчршезоп _ 


925984. himni 


газ езп ASET. 


allalli 


Z naku тиш ШОН. 
tmil 


А 


imil 


“ask досі HE 


869. html 


ин ршен 
1432928. hiarnl 


zii vilian РЫ 


PD152310 17:09 pOI0O7214319 


201573/2D 1.15 


3201574724 18:23 


Озы lhe 


0152229 21:51 


PUTS ЛЛ 11:26 


СЕ КЫ 


11:41 


15/478 17.44 


pn1522713 11:3] 


З беа 1807 


DÜ1574229 19.12 


15420 15:13 


Еп. 


800150317 


20150403 


20150403 


210 9018 


01 5901211 


ПАПА 


а 
ЕЗ0 10 


Zask#muestšnm _ 


3764976. html 


паре ано _ : 


1764976. html 


rtk question 


3764976. html 


r А жее 
可 ask esiitm 


1727735. html 


ask шенеп __ 


173773, hital 


Zusk'quesitun _ 


173773. Вот 


A sk резо | 


} 1772, Мат! 


аа quesi 


617278. html 


A ek question 


T278, Мау 


^а” quesi 


17278, html 


A nak mi 
61 7278_ himi 


ЖАД. ЛАР 


ОАЫ 


201150209 


МАТЫ ЕН 


0150408 


PD150422 


hi ip а Www. 


[йлүлпүн. гп 


hitp гул. 


шүїшөє. ап 


htlp ые. 


Галат, cm 


Барыга, 


Пит, cri 


bp ri нч. 


awie. CH 


hitp se ww. 


мита. Cn 


hitp er wu. 


WL. єп 


hitp 2 wu 


ЖЫЛТЫ, П 


hi ip гине, 


mactirnie_ СП 


Мїр ww. 


Ht, КЇЙ 


їйїп угил. 


ипе. CEL 


[їйїр зылат, 


lawine. сп 


häi P: нги 


[swtirme, єп 


Баа, 


Галате. cn 


hipi www. 


tt, CT 


hitp заал. 


пше. СП 


рэ; www. 


нме, Ст 


hiipi wrw. 


ил пе. сї 


kiip pi ww. 


НЇН. CH 


hiipii www, 


ТИШ кй 


Бр waw. 


ИП. cr 


7 aak question 


309551. hial 


rask quiealior 


10337991. henl 


A aak peatian_ 
Ha hin 


A ek dacstion_ 


259831. hml 


faak exp 987. 


Міт 


гаки сехр 87. 


HIE 


raak ei 8587, 


| 


г Eii Жы, =з, 3. 
ask ии a: 


7198189. hinl 


“maka шені 


А2948, ntinl 


педа" 


тай» 


p01007214319. 


и 


Z nask question _ 


3164976. Мп! 


аак question _ 


Ag html 


анк“ иеа __ 


ПЕТА. himi 


акк question 


3173773. himl 


ekg ue 


TT, И 


rask question __ 


173773, ыа 


гана дшев[инп_ 


RIT3773, html 


# aak guestian 


17278. him! 


Paskiqgaestion _ 


I727B, [ип 


аа tieston 


17278. htm 


дак questicq _ 


72.78. himl 


Ww. але. cm 


F W W 


пыт 


waw, lawine. cn 


WEW: lawie. 1 


гип. алате. on 


TT 


ЖЕНЕ N T IF 
АР ЕЕ 
ете нү) 
BHEE ES 
s= WI ААТ 
Т.Н - SE + TE 
а ЕИ 
ае | Pr 
E: |: + У Ea 


B Ë 0:10 


awitin. Hil 


- lawiime. ст 


ГЕЙ ЕН 
‚ lawtime. сї 


БОННИ 


W ДЫ t: 
FR E IE AUA 
[н] R H Е Е 
- E ht tt * 
ей 

Бий ТЕ 
БЕЗЕ th 3 B; qh 


л awtiy. ën 


ЖР, Т.Ж ЗЕ 
тыт [F| 81? 一 
EP Тл А: P Til 


пу Шт, C 


Мары Г 
r ын ет 同 E ? ү 
法 律 快车 法 律 


.Baier . гь 


w. laietan 


Же gian? -法律 
ЕРЕ 


HETRE 
ШЗ А, – ЖЕ 
ТАРП 


т, илгин. Ti 


БТ Ж 
н Б ТЕ ИП {Ж 
ет 一 ШЕН: 
ГЕН 


kawtim, CN 


WW ap s, DH Hd 
HEREKE 
ПЕТЕ И 


еа ВЕН 


HERE p H 


rw. Тангыт. а 


PRERE 一 


Ети Е Plt 


е, EJ] 
Bi К+ ЖАТ 
片 作为 背景 算 
ки в 87 


. lawtime. 


WH B h £ 
гъ] P BE Ж sË 


件 -法 神 快 车 


{ШТ TE 


_ lawiime. с: 


LEE: 


ТГ" 
中 -~ 法律 忆 
pepp 


n lawtirne 


做 有 限 资 性 
ERROK ЖЕ 
F- š TR Е 
EPE 


н 2: 
ШАГАЙ 11 
ОШ {ЕЕ — 0 tE 
ЕТА 


ты. mwi. ПП 


Зи ат FH 2 F] 

АЖ 
责任 - EM 
i Eak tH 


"ww, lawine. cri 


ИЯ Bš R] 
£ Mç J. £ T fT 
ГЕ — it 


Ww, lastima, eri 


38 – |: 


Е ү 


ИЕЛИ ЛЖИ |. 


H| Pj IË: Ж Ж 


3 
T 


T 


= = 


= 


Ё 


б 


dh 


E 


如 
9: kis 


ЖЕ ИГ 


АКЕСИ 


此 


ЧӨГҮҮ |6] 


pie 


劳动 合同 


yay EE 


儿童 监护 


күт 


“E: 


定罪 基 州 


ЕЗЕН) 


[КУУ E 


pisis 


а ЕН 


Шише 


БИр 


Ees 


БОЕ 


йкы Бе 


Mozilla 5, 0 Windowa WT 6.1; 
TOWS) AppleWebKi537. 36 
| EHTML ШЕ Getko } Chrome” 
31. 0. 1650, 63 Safari” 537. 36 


КРЕ 
hipa waw. | ask question Е" = ЖЯ А] Tl I, — 

- Бе, kw, lawtime. cn |. Варя 
0те. сп 014636. Һот] ee AAE с Ж РЕ 


азі qunstišnn _ 


20150 
914635. html о 


Windowsa 7 |1102973681 [|1PO2973681 (1422725918555 2015271 1.38 


1859491598 | 140100 


Meilla S. О Windows NT б. 1: 
1242119853 140100 WUW64: Tridenti 7. D; rv: 11 9834583705, 1 [BB25B2705. 1 
11] like tocko 


{Ж ETE ЇР? 
ahi Ё | 
Mozilla's. O (í Windows; U; р ТЕНИ hiim гаяк ep F O 信用 РАВ 
3609131066 [140100 Windows NT 5. 1-е. Windowsa XP 1221287319 (1221287319 [1429685946200 015/422 14.50 | 2 Ts реда р Р И ат оп goga елмы, лы en 27 KAT qg 13% E i 


“nak question] _ http www Zask/curstinm _ 


> мба: cm |2 -E Ж кет н НҮ 
3402035. himl каз lawii. сп 3 hal КОРЕН 定罪 量刑 


1423526816616 |2015, 10:53 


D. 111 SARTEN, html [aiatime. en 548781. himd п L ЖЖ КШ _ 
я HJ rk: 神 {в E a фи HE 
Ий 


ML, Hike Gecko} Chrome 31. Q. 7658765_ him! metime. e T658765. итп! — 0 ФЕ ТЖ ЗЕ Të E 
1690. 63 Salan 337. 36 


Milla OF Windows NT 5.1) 
domel lis 36 í KHT- 
2731637774 |40100 [PPE Te 36 ( ЕНТ 
WL. like Úe хар | тия. Ü 
1650, 83 Saimi 537, 3 


Мьә Ша. (0 ( iPad; U; CPU Б КЕРИП; 
05 7 like Mae 05 X; sh- CN: Ei Ж.Н hk fF 
yuz: an Ра, I) Apple WebKit#r534, 46 $ РЕ : : Faak questien him- waw, raak жиналып A WE s ЧЕ {Т БУРЕН 
2501561724 Ы я 118385063.1 H185850632 1 B42381S8S0087178 PD157275 2% 一 1S0205 ч т Е . Тамтте. а а Б ДЕГИ Eu, 
(KHTML like Gecko) ШСИгонъ- Š ше i = 52117. html awtimoe. en 152117. him wm ср _ HE а 
mA 3%. 520 Ld Mobile АСД F P E Р es 
м 


чайгы TPIS. 418. 1 


信用 卡 和 要 


hip a wwn аак ei а т, 
! 1 3 сп и х ЯП 


Мой 5, С Windows NT 5.1) шїн 

AppleWebKit537. 36 ( KHT- гра трен Һар зли, | ask questia я ще Ай 

2731637774 |140100 ТРЕ" Я indows ХР 1204438324 [1427260738669 posae 17:05 |" Teen nso ари ek question руз | lawtima en | 就 不 用 还 喇 ? 4 Гак сауле 
| А 

аттЫ, Gn 158765, html 


нв question 


658765, Пт! 


—_ 0150325 


шна XP [2024383234 1204438324 |427369024680 D01573226 19;23 


ЕЗ 


БЕ А 


HREL, 
AEE m 
И 2: 


Мик! ПИГ Windows NT 6.15 ] , 
pplaWebRit 337. 35 ( KHT- fask nuesto _ н ! htip ипга. гаяк question _ (йоз Б вне єп {та 
IL, like Gecko } Санте 31. Q. G382308. himl j — Гамета, en (AB234098. himi I i АЙ ЕГА ИЕЫ 

|650. 65 Salarie537.36 ЕНЕ 
ЕН ДЕ В, RA 
War aA HI), 
“ШЕП БЇ — AE 
Eak arl 


N PR77342832 АНК) ма ӨП B332337607 [325S099001584 рК 12.50 25 定罪 量刑 


Ми ^з. О Windows NT & L; Ma Br y HE з 


OWSA) AppleWebKi537. 36 | ` ы _ | I | = E 2 (Br ЖЕ 
° ныма 7 340761287 [546761287 12228895805361 P0157222 23,10 №1 50202 n Памет, c 如 š 
| RHTML like Сеоско) Chrome” i I i 18531924. himi пъ, сп 1924. html аы L: ERREA 


t1. 0. 1550. 63 Safari 337. 36 ire hj 


_ аак question _ hity т, ПАТЫ Aak quest iom __ кад 
бт Еа 


-l 
К] 
иы 


М Шағ Or Windknes NT 3.1) 
Л www, A ask цем TE E 2 т #ç 


SppleWebkKit 537. 36 { KHT- | д 
C пова AP 02229299 1 рох220250 1 |4335635371761 PD1522211 17-02 H 50211 DIU , [wiime., к: и 
IL. like Gerko) тоа 0, Г" ü 55 B653924. html айй сп — 653924, him н |н. Е ЗЕ 


650, 51 Safari 537, 36 РИЯ 


3059893169 ja0100 ести дозаи п | Е 


f EHTML lke Gecko | Chrome” 4553924. himd Пате, cn 3053924. hirnl — 3i Hi E h 


Моке О Windows NT 6, 3; 

WOW64) Apnle WebKiseS37. 36 гая ич hip: мл. | ¿askzqueati AEEA 

3649327977 |140100 ys ia Windows В. 1 1911220997 [1911420797 [1424879011165 [201572725 23.43. “0 Ten a025 pee s ase eatin a |w, iawtime en |12 A ч, ре 55 
40.0. 2214, 94 Salari 537, 36 Е] 


МІ. like Сес о Chrarmme 38. É. 4852974. hirnl амат. сп 1855924, html = Е Pit TR Ж 


Маа. 0i Windows NT б, 1] ШИТ" SE РЁ 

ыы Appie WebKit S37. 36 【KITT | | . z 2 aaa ss SE ре ыган ST k М чүү. Anak question М е hátp шлш ^а” нан 2 z dih НЕЛЕ 2 e qh аза 

воапозова [Lanio | P дама T |601074264. 1 epoi. L |1425013507б11 D01523 23,05 | -|201; | 1 -horos |, mime. ев |Р E 2 81 Eeit 
2125. 122 Ѕайшіг527. 3⁄6 #@ 


МІ. lke Gerko) Chromez31. 0. 693924. html lasctirne_ єп 555024. ыт) = з zh: 
А 


Ма, (M Windess MT а, 1] HEHE 

àppleWebkitr S537, 36 © KHT- F жак” qR htt a А ^ш пье ап РА Е = Z, T 后 4 

460808305 |L40100 | ТР я аы Windows T (812125454. 1 (812125454. 1 |426512986691 posal 22,00 |. ` eee арду илкин. | p на ТТТ ЛЕБДИ БИЛЕ 
1550. 63 Salari 517, 36 ? 


uallla 0 ( camgpatuble; 
МЕТЕ 8. 0; Windaws NT 5. 1: 
Tridani d, 门 : Моа 4. г СЕГЕ Р P x: Pr Р T Я 
patible; MSIE 5. 0; Windows NT Windows XP 019277708. 1 19277708. 1 [[47272®0973102 D015732258 18. EE 20150325 Кы айды РЁ т 
5. l: SVI ìs. NET CLR 1. 1. еса Бы fi dic 
322: ЖЕТ CLR 2. Q. 50727; 
IRA} 


Meola s. (И Wika NT б. 1; ы. зш. ie 
FOW) AppleWwebRit 337. 36 ri re кыы art | 
лаагаа Брз www. | ”了 “Us 1 A, I 
272149127 20100 H RHTML like Gecko) Chroma” 1 TQ dT ESAT 17- рЫ - бе " É сабж ее - ЕМИ žil z 
ч х тр Акела: М 3653923. html пише. ca 6530342 himi “ТЕ T aF. 7 | 


JIRA [р лит, Inwtima. en |“ с, 687 


1. 0, 1690. 49 Salan 537, *5 
rnwaer .0. 3345. 4080 


утара ASIAA. him ичїї. Cr 1653944, himl — Е: 
tike Gecko 


Mo а 9 С са AT 6.1; : ja hbttn: 2 rask ti У Š 
F ? k 2 F š м À ПАК филиа L . Hp ww ғ аак сри — T | ' С я" | 3 > И, 
705385502 ало вА, Trident. 0; rv. 11. Windows 7 EB90991433.1 B90991433.1 [42847510&14в b0152428 14.; акаа bas | Ps e" “UTO a kaqw.lawtime. сп Ë” # th Ж [БЕН ФМ 
- А FE 


ЖЫЛ. CHI 


599. 101 Sufan SII. 36 


Шоха” 9, O í limi: U- An- 
Irus 4. 2.2: zk— CN; He TÜ ЕРЫ 
ЧИК HUL EE ТЕП) Ар. faak” guestion hipi waw, A asks ueatiomn 引证 Р 证 部 P. муы 
1011138334 ратно [|deWebKi2s32, 30 i KHTML, Android 9963560652 [9863560652 |423396417436 PO152229 23. ! 一 各 150209 一 Данте ей Г 2 Ж 1 | КЕЕ 


Ми а,” 0 Windows NT 5.11 {ӨЕ КЕЁ 
本 = n k: ЫА БК s5 I7 35 í KHT- | с р А TRANT гу j; raak gu atian hitp з wew saak question : М. ч Лы 5 ir W ааыа, 
3827394762 L30100 Pi Š 30261919. 1 P30261919.1 D428567243656 роза 161: E = rw. lawie, сп уе а [Ж T Да 
IL, Ке Gecko) Chramne 30. 0. БАРР 1 1653924. himl 693924. html w b танк ке 


de ecko Venind 0 Wire 00745. html ите. сп 00745. himd zk hh th 3: yk 
[ЕИ 


ч К). 1. 3. 546 UVO R Ú Мые 
чап” 534, 31 


Маа S. 0i сосе NT 6, 1; HE ыз 

'OW641 Apple Web Kite532, 36 МКГ РАХ 

2238186993 KHTML, like Gecko) Chrnme2 W 3725923830 |328923830 |4262198511331 1015723713 12:10 
5.0. 1916. 153 Savtarze537. 36 ШШ 

Е 2. А MetaSr 1.0 эк 


#usk#¿puesticn__ Wo http: ww. A шен | 中 入 鉴定 程序 
00745 Мх} У ; ай, ЕТП 00749, ет! ç 法 Ht [i 车 法 


* 数 据 详 见 : 示例 程序 /data/7law.sql 
表 12-1 记 录 了 用 户 IP (已 做 数据 脱 敏 处 理 ) 、 用 户 访问 的 时 间 、 访 问 内 容 等 多 项 属性 的 记录 ， 并 针对 其 中 的 各 个 属性 进行 说 明 ， 如 表 12-2 所 示 。 


表 12-2 访问 记录 属性 表 


属性 名 称 属性 说 明 
reallP 网 址 类 型 
realAreacode 源 地 址 名 
userAgent ТА) йт ТЫ 网 页 标题 

userOS HP 19] йу 2 ҖЫ pageTitleCategoryld 标题 类 型 1р 
userlD pageTitleCategoryName 标题 类 型 名 称 
clientID 标题 类 型 关键 字 
timestamp_formal 标准 化 时 间 fullReferrerURL A O Rik 
pagePath organic Keyword 搜索 关键 宁 
fullURL — 


依据 上 述 所 提供 的 原始 数据 ， 试 着 分 析 如 下 目标 : 


“ 按 地 域 研究 用 户 访问 时 间 、 访 问 内 容 、 访 问 次 数 等 分 析 主 题 ， 深 入 了 解 用 户 对 访问 网 站 的 行为 和 目的 及 关心 的 内 容 ， 


* 借助 大 量 用 户 的 访问 记录 ， 发 现 用 户 的 访问 行为 习惯 ， 对 不 同 需求 的 用 户 进行 相关 服务 页 面 的 推荐 。 
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随 着 互联 网 和 信息 技术 快速 友 展 ， 电 子 商 务 、 网 上 服务 与 交易 等 网 络 业 务 越 来 越 普及 ， 大 量 的 信息 聚集 起 来 形成 海量 信息 。 用 户 想 要 从 海量 信息 中 快速 准确 地 寻找 到 自己 感 兴趣 的 信息 已 经 变 得 越 来 越 
困难 ， 在 电子 商务 领域 这 点 显得 更 加 突出 。 因 此 ， 信 息 过 载 的 问题 已 经 成 为 互联 网 技术 中 的 一 个 重要 难题 。 为 了 解决 这 个 问题 ， 搜 索引 警 就 证 生 了 ， 如 Google、 百 度 等 。 搜 索引 警 在 一 定 程度 上 缓解 了 信息 
过 载 问题 ， 用 户 通过 输入 关键 词 ， 搜 索引 警 就 会 返回 给 用 户 与 输入 的 关键 词 相关 的 信息 。 但 是 无 法 解决 用 户 的 很 多 其 他 需求 ， 如 用 户 无 法 找到 准确 描述 自己 需求 的 天 键 词 时 ， 搜 索引 警 就 无 能 为 力 了 。 


与 搜索 引 警 不同， 推荐 系统 并 不 需要 用 户 提供 明确 的 需求 ， 而 是 通过 分 析 用 户 的 历史 行为 从 而 使 用 户主 动 推荐 能 够 满足 他 们 兴趣 和 需求 的 信息 。 因 此 ， 对 于 用 户 而 言 推 荐 系统 和 搜索 引 警 是 两 个 互补 的 
工具 。 搜 索引 警 满足 有 明确 目的 的 用 户 需 求 ， 而 推荐 系统 能 够 帮助 用 户 发 现 其 感 兴 趣 的 内 容 。 因 此 ， 在 电子 商务 领域 中 推荐 技术 可 以 起 到 以 下 作用 : 第 一 ， 帮 助 用 户 发 现 其 感 兴趣 的 物品 ， 节 省 用 户 时 间 、 
提升 用 户 体验 ; 第 二 ， 提 高 用 户 对 电子 商务 网 站 的 忠诚 度 ， 如 果 推 荐 系统 能 够 准确 地 上 发现 用 户 的 兴趣 点 ， 并 将 合适 的 资源 推荐 给 用 户 ， 用 户 就 会 对 该 电子 商务 网 站 产生 依赖 ， 从 而 建立 稳定 的 企业 忠实 顾客 
群 ， 提 高 用 户 满意 度 。 


本 例 主要 研究 的 对 象 是 北京 某 家 法 律 网 站 ， 它 是 一 家 电子 商务 类 的 大 型 法 律 资讯 网 站 ， 其 致力 于 为 用 户 提供 丰富 的 法 律 信息 与 专业 咨询 服务 ， 并 为 律师 与 律师 事务 所 提供 卓有成效 的 互联 网 整合 营销 解 
决 方案 。 随 着 其 网 站 访问 量 增 大 ， 其 数据 信息 量 也 在 大 幅 增 长 。 用 户 在 面 对 大 量 信息 时 无 法 及 时 从 中 获得 自己 需要 的 信息 ， 对 信息 的 使 用 效率 越 来 越 低 。 这 种 浏览 大 量 无 天 信息 的 过 程 ， 造 成 了 用 户 需要 化 
费 大 量 的 时 间 才 能 找到 自己 需要 的 信息 ， 从 而 使 得 用 户 不 断 流失 ， 对 企业 造成 巨大 的 损失 。 为 了 能 够 更 好 地 满足 用 户 需求 ， 依 据 其 网 站 海量 的 数据 ， 研 究 用 户 的 兴趣 偏好 ， 分 析 用 户 的 需求 和 行为 ， 发 现 用 
户 的 兴趣 点 。 从 而 引导 用 户 发 现 自己 的 信息 需求 ， 将 长 尾 网 页 准确 地 推荐 给 所 需 用 户 ， 帮 助 用 户 发 现 他 们 感 兴趣 但 很 难 发 现 的 网 页 信息 。 为 用 户 提供 个 性 化 的 服务 ， 并 且 建 立 网 站 与 用 户 之 间 的 密切 关系 ， 
让 用 户 对 推荐 系统 产生 依赖 ， 从 而 建立 稳定 的 企业 忠实 顾客 群 ， 实 现 客 户 链 式 反应 增值 ， 提 高 消费 者 满意 度 。 通 过 提高 服务 效率 帮助 消费 者 节约 交易 成 本 等 ， 制 定 有 针对 性 的 营销 战略 方针 ， 促 进 企业 长 期 
稳定 高 速 发 展 。 
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当 用 户 访问 网 站 页 面 时 ， 系 统 会 记录 用 户 访问 网 站 的 日 志 ， 其 访问 的 数据 记录 如 表 12-1 所 示 。 
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00745 Мх} У ; ай, ЕТП 00749, ет! ç 法 Ht [i 车 法 


* 数 据 详 见 : 示例 程序 /data/7law.sql 
表 12-1 记 录 了 用 户 IP (已 做 数据 脱 敏 处 理 ) 、 用 户 访问 的 时 间 、 访 问 内 容 等 多 项 属性 的 记录 ， 并 针对 其 中 的 各 个 属性 进行 说 明 ， 如 表 12-2 所 示 。 


表 12-2 访问 记录 属性 表 


属性 名 称 属性 说 明 
realAreacode 地 区 编号 源 地 址 名 
userAgent ЗАД] г 网 页 标题 
userOS 用 户 浏 览 厅 类 型 pageTitleCategoryId 标题 类 型 [р 
userlD pageTitleCategory Name 标题 类 型 名 称 
clientID 标题 类 型 关键 字 
timestamp_format 标 惟 化 时 间 [ullRelerrerURL A O RhE 
pagePath СЪ organic Keyword 搜索 关键 学 
ymd EHH 搜索 源 
A HURT И 


依据 上 述 所 提供 的 原始 数据 ， 试 着 分 析 如 下 目标 : 


“ 按 地 域 研究 用 户 访问 时 间 、 访 问 内 容 、 访 问 次 数 等 分 析 主 题 ， 深 入 了 和 解 用 户 对 访问 网 站 的 行为 和 目的 及 关心 的 内 容 ， 


* 借助 大 量 用 户 的 访问 记录 ， 发 现 用 户 的 访问 行为 习惯 ， 对 不 同 需求 的 用 户 进行 相关 服务 页 面 的 推荐 。 


122 分 析 万 法 与 过 程 


这 个 案例 的 目标 是 需要 对 用 户 进行 推荐 ， 即 以 一 定 的 方式 将 用 户 与 物品 (本 书 指 网 页 ) 建立 联系 []。 为 了 更 好 地 帮助 用 户 从 海量 的 数据 中 快速 发 现 感 兴 趣 的 网 页 ， 在 目前 相对 单一 的 推荐 系统 上 进行 补 
充 ， 采 用 协同 过 滤 算 法 进行 推荐 ， 其 推荐 原理 如 图 12-3 所 示 。 


网 页 信息 
(REF RH) 


i . 


p 


用 户 访问 信息 
(访问 次 数 、 浏 览 内 容 ) 


图 12-3 ”推荐 系统 原理 图 


由 于 用 户 访问 网 站 的 数据 记录 很 大 ， 如 果 对 数据 不 进行 分 类 处 理 ， 对 所 有 记录 直接 采用 推荐 系统 进行 推荐 ， 这 样 会 存在 以 下 问题 : 第 一 ， 数 据 量 太 大 意味 着 物品 数 与 用 户 数 很 多 ， 在 模型 构建 用 户 与 物 
品 的 稀 踢 和 矩阵 时 ， 出 现 设备 内 存 空间 不 够 的 情况 ， 并 且 模 型 计算 需要 消耗 大 量 的 时 间 。 第 二 ， 用 户 区 别 很 大 ， 不 同 的 用 户 关 注 信息 不 一 样 ， 因 此 即使 能 够 得 到 推荐 结果 ， 其 推荐 效果 也 会 不 好 。 为 了 避免 出 
现 上 述 问题 ， 需 要 对 其 进行 分 类 处 理 与 分 析 ， 如 图 12-4 所 示 。 正 常 的 情况 下 ， 需 要 对 用 户 的 兴趣 爱好 以 及 需求 进行 分 类 。 因 用 户 访问 记录 中 ， 没 有 记录 用 户 访问 网 页 时 间 的 长 得， 因此 不 容易 判断 用 户 兴 趣 
爱好 。 因 此 ， 本 书 根据 用 户 浏览 的 网 页 信息 进行 分 类 处 理 ， 主 要 采用 以 下 方法 处 理 : 以 用 户 浏 览 网 页 的 类 型 进行 分 类 ， 然 后 对 每 个 类 型 中 的 内 容 进行 推荐 。 


用 户 区 别 大 
效果 不 理想 


а = 
k = e | Р 
š z — Б — 4 = Р z J 


图 12-4 ”数据 处 理 分 析 图 


采用 上 述 的 分 析 方 法 与 思路 ,结合 本 例 的 原始 数据 以 及 分 析 目 标 ， 可 获得 整个 分 析 的 流程 图 ， 如 图 12-5 所 示 。 其 分 析 过 程 主要 包含 以 下 内 容 : 


- 从 系统 中 获取 用 户 访 问 网 站 的 原始 记录 。 


对 数据 进行 多 维度 分 析 ， 用 户 访问 内 容 、 流 失 用 户 以 及 用 户 分 类 等 。 


对 数据 进行 预 处 理 ， 包 含 数据 去 重 、 数 据 变 换 、 数 据 分 类 等 处 理 过 程 。 


以 用 户 访问 html 后 组 的 网 页 为 关键 条 件 ， 对 数据 进行 处 理 。 


对 比 多 种 推荐 算法 进行 推荐 ， 通 过 模型 评价 ， 得 到 比较 好 的 智能 推荐 模型 。 通 过 模型 对 样本 数据 进行 预测 ， 获 得 推荐 结果 。 


912-5 ”智能 推荐 系统 整理 流程 图 


12.2.1 数据 抽取 


因为 本 例 是 采用 协同 过 滤 算 法 为 主导 ， 其 他 的 推荐 算法 为 辅 ， 而 协同 过 滤 算法 的 特性 就 是 通过 历史 数据 找 出 相似 的 用 户 或 者 网 页 。 因 此 ， 在 数据 抽取 的 过 程 中 ， 尽 可 能 地 选择 大 量 的 数据 ， 这 样 就 能 降 
低 推荐 结果 的 随机 性 ， 提 高 推荐 结果 的 准确 性 ， 能 更 好 地 发 掘 长 尾 网 页 中 用 户 感 兴趣 的 网 页 。 


以 用 户 的 访问 时 间 为 条 件 ， 选 取 三 个 月 内 (2015 年 2 月 1 日 至 4 月 29 日 ) 用 户 的 访问 数据 作为 原始 数据 集 。 由 于 每 个 地 区 的 用 户 访问 习惯 以 及 兴趣 爱好 存在 差异 性 ， 因 此 抽取 广州 地 区 的 用 户 访问 数据 进 
行 分 析 ， 其 数据 量 总 共有 837450 条 记录 ， 其 中 包括 用 户 号 、 访 问 时 间 、 来 源 网 站 、 访 问 页 面 、 页 面 标题 、 来 源 网 页 、 标 签 、 网 页 类 别 、 关 键 词 等 。 


由 于 数据 量 比较 大 ， 为 了 提高 R 读 取 大 量 数据 的 效率 ， 本 例 采用 R 读 取 数 据 库 形式 进行 抽取 数据 。 这 里 用 到 的 数据 库 为 开源 数据 库 MariaDB 10.0.17 (网 站 https://mariadb.org/en/ 可 下 载 并 自行 安装 ， 
与 MySQL 类 似 ) 。 安 装 数据 库 后 导入 本 章 的 数据 原始 文件 7law.sql， 然 后 可 以 利用 R 对 数据 库 进 行 相关 的 操作 ， 其 中 R 连 接 MariaDB 数 据 库 以 及 对 其 进行 操作 的 代码 如 代码 清单 12-1 所 示 。 


代码 清单 12-1 R 访 问 MariaDB (MySQL) 数据 库 示例 程序 


setwd ("F: /数据 及 程序 /chapter12/ 示 例 程序 ") 

## 访 问 MySQL 数 据 库 示 例 程序 

НЫНЕ ARMYSOL ё, 

require (RMySQL) 

#+ННЕЖ IRI AIE Ж б] 643 

соп <- dbConnect (MySQL () , host="127.0.0.1", port=3306, dbname = "new", user="root", password="root") 
ННЫННЫ K X. В C ҖАЕ £i. MPA 2225. о 

### 修 改 此 连接 的 编码 为 中 文 ， 只 针对 此 连接 有 效 

dbSendQuery (con, "set character set results= gbk") 

dbSendQuery (con, "set character set connection= gbk") 

dbSendQuery (con, "set character set database= gbk") 

dbSendQuery (con, "set character set client= gbk") 

#####R 通 过 连接 对 表 按 条 件 查 询 ， 查 询 E0l11url 中 带 有 的 并 且 fullurlid 为 107001 的 数据 ( 即 知 识 类 型 页 面 ) 
соп query=dbSendQuery (con, "select * from all gzdata where fullurlid =107001") 
HEEREN 2] й) 005, п=-11 48 р ҖАЕ, п=1000 25971004 

data=dbFetch (соп query, п=-1) 

FERFE ТУ К) 15 A АБЖ, name £F 5 ЛЖ 

#1 Неа1оеж т ® = лб) ЖАНННННаоигіъеТаріе (соп, пате="іпЁо", value=info d, аррепа-Т, row.names=T) 
FEEF H 连接 

dbDisconnect (con) 

ЯНЫН R E 3-3 РИЈА F ALE, TAE % 242 x F а) 2645 

# set character set client=gbk; 客户 端 编码 方式 

character set connection= gbk; 建立 连接 使 用 的 编码 

character set database= gbk; 数据 库 的 编码 

character set results= gbk; 结果 集 的 编码 


character set server= gbk; 数据 库 服 务 器 的 编码 


( 


# 
# set 
# 
# 


СТ CU Ct Ch 
| 


* 代 码 详 见 : 示例 程序 /code/RConnectDatabase.R 


12.2.2 ”数据 探索 分 析 
对 原始 数据 中 的 网 页 类 型 、 点 击 次 数 、 网 页 排名 等 各 个 维度 进行 分 布 分 析 ， 获 得 其 内 在 的 规律 ， 并 通过 验证 数据 ， 解 释 其 出 现 结果 可 能 的 原因 。 
1. 网 页 类 型 分 析 


针对 原始 数据 中 用 户 点 击 的 网 页 类 型 进行 统计 结果 如 表 12-3 所 示 ， 从 中 发 现 点 击 与 咨询 相关 (网 页 类 型 为 101，http://www.****.coryask/) 的 记录 占 49% 左 右 ， 其 次 是 其 他 (网 页 类 型 为 199) 占 比 
24% 左 右 ， 然 后 是 知识 相关 (网 页 类 型 为 107，http://www.**.com/info/) 占 比 22% 左 右 。 


表 12-3 网 页 类 型 统计 


记录 数 
411 665 
201 426 
182 900 
18 430 
17 357 
3957 
1/15 


网 页 类 型 
10] 
199 
107 
301 
102 
106 
103 


表 12-4 咨询 类 别 内 部 统计 


记录 数 101 开头 类 型 

396 612 96. 3434 101003 
7776 101002 
5603 101001 
1674 有 其他 


表 12-5 ”知识 类 型 内 部 统计 


记录 数 月 分 比 / 名 107 类 型 
164 239 知识 内 容 页 
17 843 9. 75 HHH т 
818 知识 列表 页 


因此 ， 可 以 得 到 用 户 点 击 页 面 类 型 的 排行 榜 为 : 咨询 相关 、 其 他 、 知 识 相关 、 法 规 (类 型 为 301) 、 律 师 相 关 (类 型 为 102) 。 可 以 初步 得 出 相对 于 长 篇 的 知识 ， 用 户 更 加 偏向 于 查看 咨询 或 者 进行 咨 
询 。 进 一 步 对 咨询 类 别 内 部 进行 统计 分 析 ， 其 结果 如 表 12-4 所 示 。 其 中 ， 浏 览 咨 询 内 容 页 (101003) 记录 是 最 多 ， 其 次 是 咨询 列表 页 (101002) 和 咨询 首页 (101001) 。 结 合 上 述 初 步 结论 ， 可 以 得 出 用 
户 都 喜欢 通过 浏览 问题 的 方式 找到 自己 需要 的 信息 ， 而 不 是 以 提问 的 方式 或 者 查看 长 篇 的 知识 的 方式 。 


统计 分 析 知 识 类 型 内 部 的 点 击 情况 ， 因 知识 类 型 中 只 有 一 种 类 型 (107001) ， 所 以 利用 网 址 对 其 进行 分 类 ， 获 得 知识 内 容 页 (http://www.***.com/info/*/ 数 字 .html) 以 及 知识 首页 
(http://www.****.com/info/*/) 和 知识 列表 页 (http://www.****.com/info/*) 的 分 布 情况 ， 其 结果 如 表 12-5 所 示 。 


分 析 其 他 (199) 页 面 的 情况 ， 其 中 网 址 中 带 有 “? ”的 占 了 32% 左 右 ， 其 他 咨询 相关 与 法 规 专 题 占 比 达到 43% 左 右 ， 地 区 和 律师 占 比 26% 左 右 。 在 网 页 的 分 类 中 ， 有 律师 、 地 区 、 咨 询 相 关 的 网 页 分 
类 ， 为 何 这 些 还 会 存在 其 他 类 别 中 ”进行 数据 查看 后 ， 发 现 大 部 分 是 以 如 下 网 址 的 形式 存在 : 


: http://www.**** com/guangzhou/p2lawfirm 地 区 律师 事务 所 ; 
“http://www.****,com/guangzhou 地 区 网 址 ; 

- http://www.****.com/ask/ask.php; 

` http://www.kkkk.comy/ask/midques_10549897.html 中 间 类 型 网 页 ; 
: http://www.****,com/ask/exp/4317.html 咨 询 经 验 ; 
“http://www.****.com/ask/online/138.html 在 线 咨 询 页 ，; 


带 有 标记 的 三 类 网 址 本 应 该 有 相应 的 分 类 ， 但 是 由 于 分 类 规则 的 匹配 问题 ， 没 有 相应 的 匹配 。 带 有 lawfirm 关 键 字 的 对 应 是 律师 事务 所 ， 带 有 ask/exp、ask/online 关 键 字 的 对 应 是 咨询 经 验 和 在 线 咨询 
。 所 以 在 处 理 数据 过 程 中 将 其 进行 清楚 分 类 ， 


Я 


综 上 分 析 的 三 种 情况 ， 可 以 发 现 大 部 分 用 户 浏览 网 页 的 情况 为 : 咨询 内 容 页 、 知 识 内 容 页 、 法 规 专 题 页 、 咨 询 经 验 (在 线 咨询 页 ) 。 因 此 在 后 续 的 分 析 中 ， 选 取 其 中 占 比 最 多 的 两 类 (咨询 内 容 页 、 知 


识 内 容 页 ) 进行 模型 分 析 。 


上 述 在 其 他 类 别 中， 发 现 网 址 中 存在 带 “” ”的 情况 ， 对 其 进行 统计 ， 一 共有 65492 条 记录 ， 占 所 有 记录 比例 为 7.8%， 统 计 分 析 此 情况 ， 其 结果 如 表 12-6 所 示 。 可 以 从 表 中 得 出 网 址 中 带 有 “? ”的 情 
况 不 仅仅 出 现在 其 他 类 别 中 ， 同 时 也 会 出 现在 咨询 内 容 页 和 知识 内 容 页 中 。 但 其 他 类 型 中 (1999001) 占 了 大 部 分 约 98.8%， 因 此 需要 进一步 分 析 其 类 型 内 部 的 规律 。 


Ж12-6 带 问 号 字符 网 址 类 型 统计 表 


日 分 比 /% 
64 718 1999001 98. 8182 
0. 5436 
346 107001 0. 5283 
47 101003 0. 0718 
25 102002 0. 0382 


表 12-7 其 他 类 型 统计 表 


1999001 总 数 百分比 /多 
49 894 快车 -律师 助手 77. 0945 
6166 例 费 发 布 咨询 9. 5275 
5220 er W ЖАН ДИЛ) 8. 0658 

1943 0023 

1495 3099 


通过 统计 分 析 结 果 如 表 12-7 所 示 ， 在 1999001 类 型 中 ， 标 题 为 快车 -律师 助手 的 这 类 信息 占 比 约 77%， 通 过 业务 了 解 这 是 律师 的 一 个 登录 页 面 。 标 题 为 咨询 发 布 成 功 页 面 是 自动 跳 转 的 页 面 。 其 他 类 型 中 
的 大 部 分 网 址 为 http://www.****.comy/ask/question 9152354.html?&from=androidqq 这 类 型 网 页 是 被 分 享 过 的 ， 可 以 对 其 进行 处 理 ， 截 取 “? ”前 面 的 网 址 ， 还 原 其 原 类 型 。 因 为 快 搜 和 免费 发 布 咨询 
网 址 中 ， 类 型 很 混杂 ， 不 能 直接 采用 “? ”进行 截取 ， 无 法 还 原 其 原 类 型 ， 且 整个 数据 集中 占 比 很 小 ， 因 此 在 处 理 数据 环节 可 以 对 这 部 分 数据 进行 删除 。 同 时 分 析 其 他 类 别 中 的 网 址 情况 。 网 址 中 不 包含 主 
网 址 、 不 包含 关键 字 的 网 址 有 101 条 记录 ， 类 似 的 网 址 为 : http://www.baidu.com/link?url=O7iBD2KmoJdkHWTZHagDXrxfBFMOAwLmpid12j2d aejNfq6bwSBeqT- 
1Ov2jWOFMplt5XUpXGmNIiLDIGg0rMCwstskhB5ftAYtO2 voEnu, 


在 查看 数据 的 过 程 中 ， 发 现存 在 一 部 分 这 样 的 用 户 ， 他 们 没有 点 击 具体 的 网 页 (以 .html 后 缀 结尾 ) ， 他 们 点 击 的 大 部 分 是 目录 网 页 ， 这 样 的 用 户 可 以 称 为 “ 瞎 逛 ”， 总 共有 7668 条 记录 。 分 析 其 中 的 
网 页 类 型 ， 统 计 结果 如 表 12-8 所 示 。 可 以 从 中 看 出 ， 小 部 分 是 与 知识 、 咨 询 相关 ， 大 部 分 是 地 区 、 人 律师 和 事务 所 相关 的 。 这 部 分 用 户 有 可 能 找 律师 服务 的 ， 或 者 是 “ 瞎 逛 ”的 。 


表 12-8 “ERE?” MP ERITADI 


总 数 网 页 ID 
3689 199 
1764 102 
1079 106 
846 107 
241 101 
49 301 


从 上 述 网 址 类 型 分 布 分 析 中 ， 可 以 发 现 一 些 与 分 析 目 标 无 天 数据 的 规则 : 一 是 咨询 发 布 成 功 页 面 ; 二 是 中 间 类 型 网 页 ( 带 有 midques 关键 字 ) ;三 是 网 址 中 带 有 “? ”类 型 ， 无 法 还 原 其 本 身 类 型 的 快 
搜 页 面 与 发 布 咨询 网 页 ; 四 是 重复 数据 (同一 时 间 同 一 用 户 ， 访 问 相同 网 页 ) ; 五 是 其 他 类 别 的 数据 ( 主 网 址 不 包含 关键 字 ) ; 六 是 无 点 击 .html 行 为 的 用 户 记录 ; 七 是 律师 的 行为 记录 (通过 快车 -律师 助 
手 判断 ) 。 记 录 这 些 规则 ， 有 利于 在 数据 清洗 阶段 对 数据 的 清洗 操作 。 


上 述 过 程 就 是 对 网 址 类 型 进行 统计 得 到 的 分 析 结 果 ， 针 对 网 页 的 点 击 次 数 也 进行 下 述 分 析 。 


统计 分 析 原 始 数据 用 户 浏览 网 页 次 数 的 情况 ， 其 结果 如 表 12-9 所 示 ， 可 以 从 图 中 发 现 浏览 一 次 的 用 户 占 所 有 用 户 的 57.75% 左 右 ， 大 部 分 用 户 浏览 的 次 数 在 2~ 7 次 ， 用 户 浏览 的 平均 次 数 是 3 次 。 


表 12-9 用户 点 击 次 数 统计 表 


点 击 次 数 用 户 百 分 比 /% 记录 百分比 /% 
| Bo | ss | 2026 
2 44 137 19. 30 13. 54 
; ОО оу» — | 36 [ктп 
' 0112 ае T o 


| 238 ам 
Оз» — | a вя 


Оо» | n | э» 
TRIE ma | >v | ou 


从 表 12-9 中 可 以 看 出 大 约 77% 的 用 户 只 提供 了 接近 30% 的 浏览 量 (几乎 满足 二 八 定律 ) 。 对 原始 数据 进行 统计 分 析 ， 点 击 次 数 最 大 值 为 42790 次 ， 对 其 内 容 进行 分 析 ， 发 现 是 律师 的 浏览 信息 (通过 律 
师 助手 进行 判断 ) 。 表 12-10 是 对 浏览 次 数 达 到 7 次 以 上 的 情况 进行 分 析 ， 可 以 从 中 看 出 大 部 分 用 户 浏览 8~100 次 。 


表 12-10 浏览 7 次 以 上 的 用 户 分 析 表 


АШУ SA 用 户 数 


101 ~ 1000 439 
1000 以 上 19 


针对 浏览 次 数 为 1 次 的 用 户 进行 分 析 ， 其 结果 如 表 12-11 所 示 。 其 中 ， 问 题 咨 询 页 占 比 约 78%， 知 识 页 占 比 约 15%， 而 且 这 些 记录 基本 上 全 是 通过 搜索 引擎 进入 的 。 由 此 可 以 猜测 两 种 可 能 : 第 一 ， 用 户 
为 流失 用 户 ， 在 问题 咨询 与 知识 页 面 上 没有 找到 相关 的 需要 。 第 二 ， 用 户 找到 其 需要 的 信息 ， 因 此 直接 退出 。 综 合 这 些 情况 ， 可 以 将 这 些 点 击 1 次 的 用 户 行为 定义 为 网 页 的 跳出 率 。 为 了 降低 网 页 的 跳出 率 ， 


就 需要 对 这 些 网 页 进行 针对 用 户 的 个 性 化 推荐 ， 帮 助 用 户 发 现 其 感 兴趣 或 者 需要 的 网 页 。 


表 12-11 浏览 1 次 的 用 户 行为 分 析 


个 数 百分比 /% 
101003 102 560 11. 63 


107001 19 443 14. 72 
1999001 7. 10 


301001 
其 他 


针对 点 击 1 次 的 用 户 浏览 的 网 页 进行 统计 分 析 ， 其 结果 如 表 12-12 所 示 。 可 以 看 出 排名 靠 前 的 都 是 知识 与 咨询 页 面 ， 因 此 可 以 猜测 大 量 用 户 的 关注 都 在 知识 或 咨询 方面 上 。 


О. 39 
0. 15 


表 12-12 点击 1 次 用 户 浏览 网 页 统计 


网 m 点 击 次 数 
http://www. жж жж, сотто 501 а/516/2012111978933. html 1013 
http://www. ж * Com intor/ hunvin Шам1ху/20110707137693. html 501 
http: www. жж, сот/аѕк/ацеѕпоп 925675. html 423 
http://www. ж ж, сот/аѕк/ехр/ 13655. html 301 
http: www. ж * **. com/ask/exp/8495. html 241 
http://www. * жж ж, com/ask/exp/13445. html 199 
http://www. * жж ж, com/ask/exp/17357. html 171 
3. 网 页 排名 分 析 
由 分 析 目 标 可 知 ， 个 性 化 推荐 主要 针对 html 后 缀 的 网 页 (与 物品 的 概念 类 似 ) 。 从 原始 数据 中 统计 html 后 缀 的 网 页 的 点 击 率 ， 其 点 击 率 排名 的 结果 如 表 12-13 所 示 。 从 表 中 可 以 看 出 ， 点 击 次 数 排名 前 
20 名 中 ， 法 规 专题 占 了 大 部 分 ， 其 次 是 知识 ， 然 后 是 咨询 。 但 是 从 前 面 分 析 的 结果 中 可 知 ， 原 始 数据 中 与 咨询 主题 相关 的 记录 占 了 大 部 分 。 但 是 在 其 htm| 后 缀 的 网 页 排名 中 ， 专 题 与 知识 占 了 大 部 分 。 通 过 


业务 了 解 ， 专 题 是 属于 知识 大 类 里 的 一 个 小 类 。 在 统计 html 后 缀 的 网 页 点 击 排名 ， 出 现 这 种 现象 的 原因 如 表 12-14 所 示 ， 其 中 知识 页 面相 对 咨询 页 面 要 少 很 多 ， 当 大 量 的 用 户 在 浏览 咨询 页 面 时 ， 呈 现 一 种 
比较 分 散 的 浏览 次 数 ， 即 其 各 个 页 面 点 击 率 不 高 ， 但 是 其 总 的 浏览 量 高 于 知识 。 所 以 造成 网 页 排名 中 其 咨询 方面 的 排名 比较 低 。 


表 12-13 点击 率 排名 表 


网 Ж 点 击 次 数 


http://www. жж жж, com/faguizt/23. html 6503 
http://www. ж ж жж, com/inlfo/hunyin/lhlawlhxy/20110707137693. html 4938 
http://www. * ж жж, com/Taguizt/9. html 4562 
http: www. жж * =, com/inlo/shuila/slbz2012111978933., html 4495 


http://www. жж жж, com/[aguiztu/]]. html 3976 


网 4 点 击 次 数 


http: / www. жж ж *.com/iinvlo/hunyin/lhlawlhxyy20110707137693_2. html 3305 
http; Www. ж жж, com/faguizt43. html 3251 
http: www. жж жж, com/faguizt/15. html 2718 
http://www. жж жж. com/faguizt/117. html 2670 
http://www. жж ж. com/faguizt/41. html 2455 
http: www. = * * *=.com/inlo/shuifa/slb/2012111978933_2. html 2161 
http://www. * * * *. com/faguizt/131. html 1561 
http://www. ж ж * *. com/ask/browse_al401. html 1305 
http://www. жж жж, com/faguizt/21. html 1210 
http://www. * ***.com/ask/exp/13655. html 1060 
http: WWW. ж ж ж ж, com/faguizt/39. html 1059 
http://www. ж * *.com/[aguizU/ 79. html 916 
http; Www. +*+, com/ask/question_925675. html 8 79 
http: www. жж ж ж, com/faguizt/7. html 845 
http://www. жж ж *.com/ask/exp/8495. html 726 


表 12-14 类 型 点 击 次 数 


html 网 页 类 型 总 点 击 次 数 平均 点 击 率 /% 

知识 类 (包含 专题 和 知识 ) 231 702 65 483 3. 54 
От) ЖЕ 437 132 185 478 2. 37 

从 原始 html 的 点 击 率 排行 榜 中 可 以 发 现 如 下 情况 ， 排 行 榜 中 存在 这 样 两 种 类 似 的 网 址 http://www.**.com/info/hunyin/Ihlawlhxy/20110707137693_2.html、 


http://www.***.com/info/hunyin/lhlawlhxy/20110707137693.html。 通 过 简单 访问 其 网 址 ， 发 现 其 本 身 属 于 同一 网 页 ， 但 由 于 系统 在 记录 用 户 访 问 网 址 的 信息 时 会 将 其 记录 在 数据 中 。 因 此 ， 在 用 户 访 
问 网 址 的 数据 中 存在 这 些 翻 页 的 情况 ， 针 对 这 些 翻 页 的 网 页 进行 统计 ， 结 果 如 表 12-15 所 示 。 


表 12-15” 翻 页 网 页 统计 表 


网 Сд 次 数 1/5 


http: уму. жж ж ж, сотто gongsl 51602с0)/ 2013123 12876742. html 243 

http://www. ж жж w , com/info/ gongsi/slbgzedj/201312312876742_2. html 0. 782 
http://www. = ***.cecom/invlo/hetong/ldhu/201311152872128. html 197 0. 468 
htllp:/Z www. +*+, com/inlo/hetong/ldhu/201311152872128_2. html 
http://www. ж жж ж, com/info/hetong/ldht/201311152872128_3. html 0. 696 
http://www. ж * ж * , com/info/hetong/ldht/201311152872128_4. html 0.614 
http; Www. * ***.cecomZ/invlo/Zhunyin/hunyinfagui/20110813143541. html 
http://www. +*+, com/info/hunyin/hunyinfagui/20110813143541_2. html 0. 783 
http://www. ж ж, com/info/hunyin/hunyinfagui/20110813143541_3. html 175 0. 748 


通过 业务 了 解 ， 同 一 网 页 中 登录 次 数 最 多 的 都 是 从 外 部 搜索 引擎 直接 搜索 到 的 网 页 。 对 其 中 浏览 翻 页 的 情况 进行 分 析 ， 平 均 60%~80% 的 人 会 选择 看 下 一 页 ， 基 本 每 一 页 都 会 去 失 20%~40% 的 点 击 率 ， 
点 击 率 会 出 现 衰减 的 情况 。 同 时 ， 对 知识 类 型 网 页 进行 检查 ， 发 现 页 面 上 并 无 全 页 显示 功能 ， 但 是 知识 页 面 中 大 部 分 都 存在 翻 页 的 情况 。 这 样 就 造成 了 大 量 用 户 基本 只 会 选择 浏览 2~5 页 后 ， 很 少 会 选择 浏 
览 完 全 部 内 容 。 因 此 ， 用 户 就 会 直接 放弃 此 次 的 搜索 ， 从 而 提高 网 站 的 跳出 率 ， 降 低 了 客户 的 满意 度 ， 不 利于 企业 的 长 期 稳定 发 展 。 


1223 ”数据 预 处 理 


本 案例 在 对 原始 数据 探索 分 析 的 基础 上 ， 发 现 与 分 析 目 标 无 天 或 模型 需要 处 理 的 数据 ， 针 对 此 类 数据 进行 处 理 。 其 中 ， 涉 及 的 数据 处 理 方式 有 : 数据 清洗 、 数 据 变换 和 属性 规约 。 通 过 这 几 类 的 处 理 方 
式 ， 将 原始 数据 处 理 成 模型 需要 的 输入 数据 ， 其 数据 处 理 流程 图 如 图 12-6 所 示 。 


归并 翻 页 的 网 址 
数据 清洗 


数据 分 类 处 理 


[ 
Гы 


筛选 
html 


数据 


推荐 系统 


图 12-6 ”数据 处 理 流 程 图 
1. 数 据 清洗 


从 探索 分 析 的 过 程 中 发 现 与 分 析 目 标 无 天 的 数据 ， 归 纳 总 结 其 数据 满足 如 下 规则 : 中 间 页 面 的 网 址 、 咨 询 发 布 成 功 页 面 、 律 师 登录 助手 的 页 面 等 。 将 其 整理 成 删除 数据 的 规则 ， 其 清洗 的 结果 如 表 12- 
16 所 示 。 从 表 中 情况 可 以 发 现 ， 律 师 用 户 信息 占 了 所 有 记录 中 的 22% 左 右 。 其 他 类 型 的 数据 ， 占 比 很 小 ， 为 5% 左 右 。 


+1216 ”规则 清洗 表 


删除 数据 规则 删除 数据 记录 原始 数据 记录 ПЛ Е/% 
ШЕШ l miqques DEBE) 24 
ЕЗИ ПЕ 律师 的 浏览 信息 22-14 


咨询 发 布 成 功 0. 58 
主 网 址 不 包含 关键 字 0.01 
快 搜 5 免费 发 布 次 淘 的 记录 1. 19 
其 他 类 别 带 有 “?” 的 记录 0.07 
天 hml LT) "ios G— a 0.92 
重复 记录 3. 06 


经 过 上 述 数据 清洗 后 的 记录 中 仍然 存在 大 量 的 目录 网 页 (可 理解 为 用 户 浏览 信息 的 路 径 ) ， 人 在 进入 推荐 系统 时 ， 这 些 信 息 的 作用 不 大 ， 反 而 会 影响 推荐 的 结果 ， 因 此 需要 从 中 进一步 筛选 html 后 缀 的 网 
。 根 据 分 析 目 标 以 及 探索 结果 可 知 咨询 与 知识 是 其 主要 业务 来 源 ， 故 需 筛选 咨询 与 知识 相关 的 记录 ， 将 此 部 分 数据 作为 模型 分 析 需 要 的 数据 。 


Я 


针对 数据 清洗 操作 ， 采 用 R 实 现 的 代码 如 代码 清单 12-2 所 示 。 


代码 清单 12-2 ”数据 清洗 示例 程序 


require (р1уг) 

HERRA ARTAMA, 去 除 多 余 的 属性 列 ， 保 留用 户 IP 与 访问 网 址 列 

info=data [, c (1, ] 

НЫНЕ "Г 采 用 лег 多 余 属 性 列 

####info=data.£frame us (realIP=data$realIP, fullURL=data$fullURL) , stringsAsFactors=F) 
HEFL 1пЁо ЖЖ p AERA “? ”的 网 址 

info [, 2] =gsub ("` Ë? .*", ww info [, 2] , perl=T) 

detach ("package: RMySQL") 

##### 这 里 采用 sqldf 包 里 的 Sql9f 命 令 ， 通 过 SOL 进行 删 选 翻 页 与 不 翻 页 的 网 页 


info d=sqldf: : sqldf ("select к from info where fullurl like '%! %' escape '! '") 
info q=sqldf: : sqldf ("select * from info where fullurlnot like '%! _%' escape '! ' ") 
HEHH  Хазк Жш п) 46, ЭРЛ P 5 ñ B bk 


ask data =read.csv (file="g: /аѕк02.сзу", header=T, stringsAsFactors =F) 
askitem= ask data [, c (1, 2) 1 

ННН ак А 

item ask=ddply (askitem, . (realIP, FULLURL) , tail, n = 1) 


* 代 码 详 见 : 示例 程序 /code/Clean.R 
2. 数 据 变换 


由 于 在 用 户 访问 知识 的 过 程 中 存在 翻 页 的 情况 ， 不 同 的 网 址 属于 同一 类 型 的 网 页 ， 如 表 12-17 所 示 。 数 据 处 理 过 程 中 需要 对 这 类 网 址 进行 处 理 ， 最 简单 的 处 理 方法 是 将 翻 页 的 网 址 删 掉 。 但 是 用 户 在 访 
问 页 面 的 过 程 中 ， 是 通过 搜索 引擎 进入 网 站 的 ， 所 以 其 入 口 网 页 不 一 定 是 其 原始 类 别 的 首页 ， 采 用 删除 的 方法 会 损失 大 量 的 有 用 数据 ， 在 进入 推荐 系统 时 ， 会 影响 推荐 结果 。 因 此 ， 针 对 这 些 网 页 需要 还 原 
其 原始 类 别 ， 处 理 方式 为 首先 需要 识别 翻 页 的 网 址 ， 然 后 对 翻 页 的 网 址 进行 还 原 ， 最 后 针对 每 个 用 户 访问 的 页 面 进行 去 重 的 操作 ， 其 操作 结果 如 表 12-18 所 示 。 


表 12-17 用 户 翻 页 网 址 表 


ВР ID 时 i 访问 网 页 
978851598 2015-02-11 15:24:25 http://www. жж жж. com/inlvlo/Jiaotoneg/Jtlawdljtaqtb/201410103308246. html 
978851598 2015-02-11 15:25: 46 http://www. * * * =. com/inlo/jiaotong/ Шам! 1а41/201410103308246 2. html 
com/info/ Jiaotong/ Jtlawdljtagt/201410103308246_4. html 
. com/ inlo/Jiaotong/ jtlawdljtaqt/201410103308246_5. html 


№ 
* 
К 
3 


978851598 2015-02-11 15:25. 52 http: Z www. 


X 
+ 
* 
+ 


078851598 2015-02-11 15:26. 00 http: www. 
078651598 2015-02-11 15:26:10 http://www. +*+, com/info/jiaotong/ tlawdljtagt/201410103308246_6. html 


12-18 ”数据 变换 后 的 用 户 翻 页 表 


用 户 ID 访问 网 页 


978851598 2015-02-11 15:26:10 Һир: www. жжхжж. cominfo/jiaoong/ Шам 11а4/201410103308246. html 


关于 用 户 翻 页 的 数据 处 理 代码 如 代码 清单 12-3 所 示 。 
代码 清单 12-3 ”数据 变换 示例 程序 


提 ### 采 用 正则 匹配 那些 带 有 翻 页 的 网 址 ， 匹 配 网 址 的 特点 为 : 数字 кз ко, 
stri p=regexec (" (^.+/NNd+) NNd{0, 2) (.html) ", info d [, 2] ) 
### 去 除 1ist 1.html 形 式 的 网 页 ， 以 及 与 其 类 似 的 网 页 

infol=info а [- (which (sapply (stri p, length) { =3) ) , ] 

### 提 取 正 则 匹配 到 的 数据 ， 并 将 数据 进行 粘 接 

parts <- do.call (rbind, regmatches (info а [, 2], stri р) ) 
pas=paste0 (parts [, 2] , parts [, 31) 

###® AHATA paste (parts [, 2] , parts [, 3] , collapse = NULL) 


НЫНЕ IAA, ЭН Ей Л, Ж} КАРЕ АГ 6 ҖЕ 
combine=cbind (parts, раз) 
colnames (combine) =c ("fullurl", "templ", "temp2", "new" 
do.data=data.frame ( (combine [, c (1, 4) ] ) , stringsAsFactors=F) 
##### 如 果 不 加 strzingsAsEFactors 参 数 ， 可 让 能 会 将 其 中 的 数据 类 型 转换 为 factor 型 
FEET 以 通过 下 列 命令 进行 转换 处 理 
# do.data | ， 1] =as.character (do.data [, 1] ) 

# do.data [, 2] =as.character (do.data [, 2] ) 

И # 判 断 处 理 前 后 的 两 列 数据 以 及 数据 位 置 是 否 相 同 ? 

.equal (infol [, 2] , do.data [, 1] ) 

TH Жый ta A TRUE, 两 种 数据 集 的 连接 采用 如 下 方式 

condata=data. frame (cbind (infol [, 1] , do.data [, 2] ) , stringsAsFactors=F) 

colnames (condata) =names (info q) 

#### 如 果 判 断 结 果 为 FALSE， 可 以 采用 如 下 方法 

###### 找 到 原始 数据 在 处 理 后 的 数据 集中 的 位 置 ， 将 两 种 数据 集 进行 连接 

#pn=data.frame (cbind (infol [, 2] , do.data [match (infol |, 2] , do.data [, 1] ) , 1), strings- 
AsFactors=F) 

#### 如 采 pn 中 存在 因子 型 ， 需要 将 其 转换 字符 型 

#for (i in 1: dim (pn) [2] ) pn [, i] =as.character ( pn [, i] ) all.equal (pn [, 1] , pn [, 2] ) 
# condata=cbind (infol [, 1] , pn [, 3] ) 

# colnames (condata) =names (info q) 

FERRITE 2 PD Ф Л 6 65 ЖЕБЕ B ЙЯ 65 3⁄2 3 @- 

item info=rbind (info q, о 

ННН 36, УАТРЯе B] b X| #-Җ1ЕЖ, А БАР б) K 6 — 3⁄3 

user іпЁо=аар1у (item info, . (real ІР, fullURL) , tail, n = 1) 


* 代 码 详 见 : 示例 程序 /code/DataChange.R 


由 于 在 探索 阶段 发 现 有 部 分 网 页 的 所 属 类 别 是 错误 的 ， 需 对 其 数据 进行 网 址 分 类 ， 且 分 析 目 标 是 分 析 咨 询 类 别 与 知识 类 别 ， 因 此 对 这 些 网 址 进行 手动 分 类 ， 其 分 类 的 规则 和 结果 如 表 12-19 所 示 ， 其 中 
对 网 址 中 包含 ask、askzt 关 键 字 的 记录 人 为 归 类 至 咨询 类 别 ， 对 网 址 中 包含 zhishi、faguizt 关 键 字 的 网 址 将 其 归 类 为 知识 类 别 。 


表 12-19 网 页 类 别 规则 


类 型 总 记录 数 ASE% Л BB 
ТЕ 384092 67. 09 ЕНЕ ask. аѕк HHT 
知识 类 188421 网 址 中 包含 zhishi 、faguizt 关键 字 


因为 目标 是 需要 为 用 户 提供 个 性 化 的 推荐 ， 在 处 理 数 据 的 过 程 中 需要 进一步 对 数据 进行 分 类 ， 其 分 类 方法 如 图 12-7 所 示 ， 图 中 知识 部 分 是 由 很 多 小 的 类 别 组 成 。 由 于 所 提供 的 原始 数据 中 知识 类 别 无 法 
行内 部 分 类 ， 从 业务 上 进行 分 析 ， 可 以 采用 其 网 址 的 构成 对 其 进行 分 类 。 对 表 12-20 中 的 用 户 访问 记录 进 ， 其 分 类 的 结果 如 表 12-21 所 示 。 


8127 网 页 分 类 图 
表 12-20 ”网 页 分 类 表 


HA 网 HL 
863142519 http://www. * * жж. com/info/minshi/fagui/20121 11982349. html 


863142519 http://www. * * * =. сот іто/ = а/уув/201403042882164 2. html 
863142519 http://www. +*+, com/info/jiaotong/jtnews/20130123121426. html 


Ж1221 网 页 分 类 结果 表 


用 户 类 别 3 


针对 网 页 分 类 的 处 理 过 程 的 代码 ， 如 代码 清单 12-4 所 示 。 
代码 清单 12-4 ”网 页 分 类 示例 程序 


## 对 网 址 进行 处 理 ， 以 / 符合 划分 网 址 ， 获 得 其 类 别 ， 结 果 为 ]ist 型 
web=strsplit (user info [, 2], "/", fixed = TRUE) 

НР LISTA HAIE, 1% ЖЕ Ç ЕЛЕ 6 1 £ 
w.combine=ldply (web, rbind) 

## 获 取 知 识 列表 中 婚姻 类 别 的 数据 以 及 在 原始 数据 中 的 位 置 
hunyi=w.combine [which (w.combine [, 5] =="hunyin") , | 
item hunyi=user info [row.names (hunyi) , | 
#H Ж ЖЛ] # р 0079Ж, JE SOL4E 0) ©] 0,2969 Zo F. 69 X g == 


#item hunyi=sqldf: : sqldf ("select * from user info where fullurl like '%info/hunyin%' ") 


* 代 码 详 见 : 示例 程序 /code/DataSplit.R 


统计 分 析 每 一 类 中 的 记录 ， 以 知识 类 别 中 的 婚姻 法 为 例 进行 统计 分 析 如 表 12-22 所 示 。 可 知 其 网 页 的 点 击 率 基本 满足 二 八 定律 ， 即 80% 的 网 页 只 占 了 浏览 量 的 20% 左 右 ， 通 过 这 个 规则 ， 按 点 击 行为 进 
行 分 类 分 析 ，20% 的 网 页 是 热点 网 页 ， 其 他 80% 的 页 面 属于 点 击 次 数 少 的 。 因 此 ， 在 进行 推荐 过 程 中 ， 需 要 将 其 分 开 进 行 推荐 ， 已 达到 推荐 的 最 优 效果 。 


表 12-22 ”婚姻 知识 点 击 次 数 统计 表 


点 击 次 数 网 页 个 数 (3314) An а 57 67% 记录 数 (16849) 记录 日 分 比 /%% 


3. 属 性 规约 


由 于 推荐 系统 模型 的 输入 数据 需要 ， 需 对 处 理 后 的 数据 进行 属性 规约 ， 提 取 模 型 需要 的 属性 。 本 案例 中 模型 需要 的 数据 属性 为 用 户 和 用 户 访问 的 网 页 。 因 此 将 其 他 的 属性 删除 ， 只 选择 用 户 与 用 户 访问 
的 网 页 ， 其 输入 数据 集 如 表 12-23 所 示 。 


表 12-23 模型 输入 数据 集 


HA 网 页 
2018622772 http: www. ж ж ж, com/info/hunyin/ hunyinfagui/ 201312112874686. html 
1032300855 http: www. жж ж .com шо” hunvin Шипйаоуап/201408273306990. html 
1032300856 http: WWW. жж жж, Cominfo/ gongsi/ gzezeqgz/2010090150526. html 
3029700497 http://www. * * жж, com/in)vo/xingshisusongfa/xingshipanjueshu/20110427115148. html 
1971856960 http://www. ж жж, соти іо иту ам1һху/20110707137693. html 
1875780750 http://www. ж ж, com/in)lo/xingshisusongfa/xingshipanjueshu/20110706119307. html 
1032299799 http: мум. ж ж жж, соп inlo/xingshisusongla/xingshipanjueshu/20110503115363. html 
1033227430 http://www. * * **. com/invto/hunyin/yizhu/20120924165440. html 
1928928104 http: Z www. ж * *.comZinlblo/hunyin/hunyinfagui/20111012157587. html 

(28) 

BP. 网 页 
2937714434 http://www. * * **. com/info/jiaotong/jtaqchangshi/20121218120961. html 
3029700498 http://www. жж ж ж, com/info/fangdichan/ tudizt/ zhaijidi/20111019165581. html 
1033227430 http: www. жж ж ж, com/info/hunyin/yizhudingli/2010102668080. html 
1032299831 http://www. ж жж, cominfo/yimin/ England” yymtj/20100119259. html 
3029700501 http://www. жж ж ж, cominfo/hunyin/lihuntiaojian/ 2011010894137. html 
3029700365 http://www. жж ж ж, com/ info/fangdichan/tudizt/ zhaijidi/201405152978392. html 
1033227430 http: www. жж ж ж, com/inlo/hunyin/yizhu/20120924165440. html 
3029700372 http: Www. жж ж, cominfo/fangdichan-tudizt/zhaijidi/201405152978392_2. html 
1033227430 http: WWW. * * **. com/info/hunyin/yizhu/20120924165439. html 
1875780622 http: ммм. * * **,com/inlo/hunyin/wuxiaohunvin/201412193311538. html 


1224 ”模型 构建 


在 实际 应 用 中 ， 构 造 推荐 系统 时 ， 并 不 是 采用 单一 的 某 种 推荐 方法 进行 推荐 。 为 了 实现 较 好 的 推荐 效果 ， 大 部 分 都 将 结合 多 种 推荐 方法 将 推荐 结果 进行 组 合 ， 最 后 得 出 了 推荐 结果 ， 在 组 合 推荐 结果 
时 ， 可 以 采用 串 行 或 者 并 行 的 方法 。 本 例 所 展示 的 是 并 行 的 组 合 方法 ， 如 图 12-8[ 所 示 。 


{#511 w 


属性 特征 向 量 


推荐 引擎 2 | Е 
| 初始 推荐 结果 


推荐 引擎 人 


图 12-8 推荐 系统 流程 图 


针对 此 项 目的 实际 情况 ， 其 分 析 目 标的 特点 为 : 长 尾 网 页 丰富 、 用 户 个 性 化 需求 强烈 、 推 荐 结果 的 实时 变化 ， 以 及 结合 原始 数据 的 特点 : 网 页 数 明显 小 于 用 户 数 。 本 例 采 用 基于 物品 的 协同 过 滤 推 荐 系 
统 对 用 户 进行 个 性 化 推荐 ， 以 其 推荐 结果 作为 推荐 系统 结果 的 重要 部 分 。 因 其 推荐 的 结果 是 利用 用 户 的 历史 行为 为 用 户 进 行 推荐 ， 可 以 令 用 户 容易 信服 其 推荐 结果 。 

基于 物品 的 协同 过 滤 系 统 的 一 般 处 理 过 程 : 分 析 用 户 与 物品 的 数据 集 ， 通 过 用 户 对 项 目的 浏览 与 否 (喜好 ) 找到 相似 的 物品 ， 然 后 根据 用 户 的 历史 喜好 ， 推 荐 相似 的 项 目 给 目标 用 户 。 图 12-9 是 基于 物 
品 的 协同 过 滤 推荐 系统 图 中 ， 从 图 中 可 知 用 户 A 喜 欢 物品 A 和 物品 C， 用 户 B 喜 欢 物品 A、 物 品 B 和 物品 C， 用 户 C 喜 欢 物品 A。 从 这 些 用 户 的 历史 喜好 可 以 分 析出 物品 A 和 物品 C 是 比较 类 似 的 ， 喜 欢 物 品 A 的 人 
都 喜欢 物品 C， 基 于 这 个 数据 可 以 推断 用 户 C 很 有 可 能 也 喜欢 物品 C， 所 以 系统 会 将 物品 C 推 荐 给 用 户 C。 


用 户 C 


根据 上 述 处 理 过 程 可 知 ， 基 于 物品 的 协同 过 滤 算 法 主要 分 为 两 步 : 


9129 ”基于 物品 的 推荐 系统 原理 图 


- 计算 物品 之 间 的 相似 度 。 
‚ 根据 物品 的 相似 度 和 用 户 的 历史 行为 给 用 户 生 成 推荐 列表 。 
其 中 ， 关 于 物品 相似 度 计 算 的 方法 有 : 夹 角 余弦 、 杰 卡 德 (Jaccard) 相似 系数 、 相 关系 数 等 。 将 用 户 对 某 一 个 物品 的 喜好 或 者 评分 作为 一 个 向 量 ， 如 所 有 用 户 对 物品 1 的 评分 或 者 喜好 程度 表示 为 


A1= (X11，X21，X31，…，Xn1) ， 所 有 用 户 对 物品 M 的 评分 或 者 喜好 程度 表示 为 AM= (x1m，x2m，x3m，…，xnm) ， 其 中 mm 为 物品 ，n 为 用 户 数 。 可 以 采用 上 述 几 种 方法 计算 两 个 物品 之 间 的 相似 度 ， 其 
计算 公式 如 表 12-24 所 示 。 由 于 用 户 的 行为 是 二 元 选择 (0-1 型 ) ， 因 此 本 例 在 计算 物品 的 相似 度 过 程 中 采用 杰 卡 德 相似 系数 的 方法 。 


表 12-24 ”相似 度 计 算 公 式 

л Ж 

取 值 范围 为 [ -1, 1]， 当 余弦 值 接近 

+1， 表 明 两 个 向 量 有 较 强 的 相似 性 。 当 
余 弱 值 为 0 时 表示 不 相关 


KRIZ 


TEFA UAy 表示 高 欢 物品 1 与 育 欢 物 
їп M JH 3, SF A r 'Ay 表示 同时 
蔓 欢 物品 1 和 物品 M ОУДТ Ж 


杰 卡 德 相似 系数 


相关 系数 的 取 值 范围 是 [| -1, 1]。 相 


Ë = 


相关 系数 - —— | 关系 数 的 绝对 什 越 大 ， 则 表明 两 者 相关 
У, (Жы 一 А, у“ % 一 A KERRE 


k=l 


在 协同 过 滤 系 统 分 析 的 过 程 中 ， 用 户 行为 存在 很 多 种 ， 如 浏览 网 页 与 否 、 是 否 购买 、 评 论 、 评 分 、 点 赞 等 行为 。 如 果 要 采用 统一 的 方式 表示 所 有 这 些 行为 是 很 困难 的 ， 因 此 只 能 针对 具体 的 分 析 目 标 进 
行 具体 的 表示 。 在 本 例 中 ， 原 始 数 据 只 记录 了 用 户 访问 网 站 浏览 行为 ， 因 此 用 户 的 行为 是 浏览 网 页 与 否 ， 并 没有 类 似 电子 商务 网 站 上 的 购买 、 评 分 和 评论 等 用 户 行为 。 


完成 各 个 物品 之 间 相 对 度 的 计算 后 ， 即 可 构成 一 个 物品 之 间 的 相似 度 和 矩阵 类 似 如 表 12-25 所 示 。 通 过 采用 相似 度 和 矩阵 ， 推 荐 算法 会 给 用 户 推荐 与 其 物品 最 相似 的 K 个 物品 。 采 用 公式 P=simxR， 度 量 了 
推荐 算法 中 用 户 对 所 有 物品 的 感 兴趣 程度 。 其 中 R 代 表 了 用 户 对 物品 的 兴趣 ，sim 代 表 了 所 有 物品 之 间 的 相似 度 ，P 为 用 户 对 物品 感 兴 趣 的 程度 。 因 为 用 户 的 行为 是 二 元 选择 (是 与 否 ) ， 所 以 用 户 对 物品 的 
УЧ АХЕН REO. 


表 12-25 ”相似 度 矩 阵 


由 于 推荐 系统 是 根据 物品 的 相似 度 以 及 用 户 的 历史 行为 ， 对 用 户 的 兴趣 度 进行 预测 并 推荐 ， 因 此 在 评价 模型 的 时 候 需 要 用 到 一 些 评测 指标 。 为 了 得 到 评测 指标 ， 一 般 是 将 数据 集 分 成 两 部 分 : 大 部 分 数 
据 作 为 模型 训练 集 ， 小 部 分 数据 作为 测试 集 。 通 过 训练 集 得 到 的 模型 ， 在 测试 集 上 进行 预测 ， 然 后 统计 出 相应 的 评测 指标 ， 通 过 各 个 评测 指标 的 值 可 以 知道 预测 效果 的 好 与 坏 。 


本 例 采 用 交叉 验证 的 方法 完成 模型 的 评测 ， 具 体 方法 如 下 : 将 用 户 行为 数据 集 按照 均匀 分 布 随机 分 成 M 份 (本 例 取 M=10) ， 挑 选 一 份 作为 测试 集 ， 将 剩 下 的 M-1 份 作为 训练 集 。 然 后 在 训练 集 上 建立 
模型 ， 并 在 测试 集 上 对 用 户 行为 进行 预测 ， 统 计 出 相应 的 评测 指标 。 为 了 保证 评测 指标 并 不 是 过 拟 合 的 结果 ， 需 要 进行 M 次 实验 ， 并 且 每 次 都 使 用 不 同 的 测试 集 。 然 后 将 M 次 实验 测 出 的 评测 指标 的 平均 值 
作为 最 终 的 评测 指标 。 


1. 基 于 物品 的 协同 过 滤 
基于 协同 过 滤 推 荐 算法 包括 两 部 分 : 基于 用 户 的 协同 过 滤 推 荐 和 基于 物品 的 协同 过 滤 推 荐 。 本 书 结合 实际 的 情况 ， 选 择 基 于 物品 的 协同 过 滤 算 法 进行 推荐 ， 其 模型 构建 的 流程 如 图 12-10 所 示 。 


其 中 ， 训 练 集 与 测试 集 是 通过 交叉 验证 的 方法 划分 后 的 数据 集 。 通 过 协同 过 滤 算 法 的 原理 可 知 ， 在 建立 推荐 系统 时 ， 建 模 的 数据 量 越 大 ， 越 能 消除 数据 中 的 随机 性 ， 得 到 的 推荐 结果 相对 比 数 据 量 小 要 
好 。 但 是 数据 量 越 大 ， 模 型 建立 以 及 模型 计算 耗 时 越久 。 因 此 本 书 选 择 数据 处 理 后 的 婚姻 与 咨询 的 数据 ， 其 数据 分 布 情况 如 表 12-26 所 示 。 在 实际 应 用 中 ， 应 当 以 大 量 的 数据 进行 模型 构建 ， 得 到 的 推荐 结 
果 相 对 会 好 些 。 


串 练 集 


用 户 一 物品 年 阵 


TPJ nn FH DUH: РЕ 


x р |033|06 1025| | | 
Е 10.6 10.6 |025|02| | 
07 | 


计算 兴趣 度 


( 评价 指标 ) 


912-10 ”基于 物品 协同 过 滤 建 模 流程 图 
表 12-26 模型 数据 统计 表 


数据 类 型 训练 数据 总 数 访问 平均 次 数 测试 数据 总 数 
婚姻 类 型 1800 
咨询 类 型 893 


由 于 实际 数据 中 ， 物 品 数 目 过 多 ， 建 立 的 用 户 一 物品 矩阵 与 物品 相似 度 矩 阵 是 一 个 很 庞大 的 和 矩阵。 因此 图 中 采用 一 个 简单 示例 ， 在 用 户 一 物品 矩阵 的 基础 上 采用 杰 卡 德 相似 系数 的 方法 ， 计 算出 物品 相 
似 度 和 矩阵。 通过 物品 相似 矩阵 与 测试 集 的 用 户 行为 ， 计 算 用 户 的 兴趣 度 ， 获 得 推荐 结果 ， 进 而 计算 出 各 种 评价 指标 。 


为 了 对 比 个 性 化 推荐 算法 与 非 个 性 化 推荐 算法 的 好 坏 ， 本 书 选择 了 两 种 非 个 性 化 算法 和 一 种 个 性 化 算法 进行 相应 的 建 模 并 对 其 进行 模型 评价 与 分 析 。 其 中 ， 两 种 非 个 性 化 算法 为 : Random 算 法 (随机 
推荐 ) 、Popular 算 法 (热点 推荐 ) ，Random 算 法 是 每 次 都 随机 挑选 用 户 没 有 产生 过 行为 的 物品 推荐 给 当前 用 户 。Popular 算 法 是 按照 物品 的 流行 度 给 用 户 推荐 他 没有 产生 过 行为 的 物品 中 最 热门 的 物品 。 


个 性 化 算法 为 : 基于 物品 的 协同 过 滤 算 法 。 利 用 3 种 算法 ， 采 用 相同 的 交叉 验证 的 方法 ， 对 数据 进行 建 模 分析 ， 获 得 各 个 算法 的 评价 指标 。 


2. 模 型 评价 


如 何 去 评 价 一 个 推荐 系统 的 好 与 不 好 ? 一 般 可 以 从 如 下 几 个 方面 整体 进行 考虑 : 用 户 、 物 品 提供 者 、 提 供 推荐 系统 网 站 出 。 好 的 推荐 系统 能 够 满足 用 户 的 需求 ， 推 荐 其 感 兴 趣 的 物品 。 推 荐 的 物品 中 ， 


不 能 全 部 是 热门 的 物品 ， 同 时 也 需要 用 户 反 馈 意见 帮助 完善 其 推荐 系统 。 因 此 ， 好 的 推荐 系统 不 仪 能 预测 用 户 的 行为 ， 而 且 能 帮助 用 户 发 现 可 能 会 感 兴趣 ， 但 却 不 易 被 发 现 的 物品 。 同 时 ， 推 荐 系统 还 应 该 
帮助 商家 将 长 尾 中 的 好 商品 发 掘 出来， 推荐 给 可 能 会 对 它们 感 兴趣 的 用 户 。 在 实际 应 用 中 ， 评 测 推 荐 系统 对 三 方 影响 是 必 不 可 少 的 。 评 测 指标 主要 来 源 于 如 下 3 种 评测 推荐 效果 的 实验 方法 ， 即 离线 测试 、 用 
户 调查 和 在 线 测试 。 

离线 测试 是 通过 从 实际 系统 中 提取 数据 集 ， 然 后 采用 各 种 推荐 算法 对 其 进行 测试 ， 获 各 个 算法 的 评测 指标 。 这 种 实验 方法 的 好 处 是 不 需要 真实 用 户 参 与 。 


注意 : 离线 测试 的 指标 和 实际 商业 指标 存在 差距 ， 如 预测 准确 率 和 用 户 满意 度 之 间 就 存在 很 大 差别 ， 高 预测 准确 率 不 等 于 高 用 户 满意 度 。 所 以 当 推荐 系统 投入 实际 应 用 之 前 ， 需 要 利用 测试 的 推荐 系统 
进行 用 户 调查 。 


用 户 调查 利用 测试 的 推荐 系统 调查 真实 用 户 ， 观 察 并 记录 他 们 的 行为 ， 并 让 他 们 回答 一 些 相关 的 问题 。 通 过 分 析 用 户 的 行为 和 他 们 反馈 的 意见 ， 判 断 测试 推荐 系统 的 好 坏 。 
在 线 测试 顾名思义 就 是 直接 将 系统 投入 实际 应 用 中 ， 通 过 不 同 的 评测 指标 比较 与 不 同 的 推荐 算法 的 结果 ， 如 点 击 率 ， 跳 出 率 等 。 


由 于 本 例 中 的 模型 是 采用 离线 的 数据 集 构建 的 ， 因 此 在 模型 评价 阶段 采用 离线 测试 的 方法 获取 评价 指标 。 因 为 不 同 表现 方式 的 数据 集 ， 其 评测 指标 也 不 同 ， 针 对 不 同 的 数据 方式 ， 其 评测 指标 的 公式 如 
表 12-27 所 示 。 


表 12-27 评测 指标 表 


数据 表现 方式 指标 3 


预测 准确 度 Азу бы ЕД МАЕ = | 
| тр PE 3 рү 
TEE precision = as 一 一 一 一 一 Fl = < 


在 某 些 电子 商务 的 网 站 中 ， 存 在 一 个 对 物品 进行 打分 的 功能 。 在 此 种 数据 的 情况 下 ， 如 果 要 预测 用 户 对 某 个 物品 的 评分 ， 就 需要 用 到 预测 准确 度 的 数据 表现 方式 ， 其 中 评测 的 指标 有 均 方 根 误差 
(RMSE) 、 平 均 绝对 误差 (MAE) 。 其 中 rui 代 表 用 户 u 对 物品 的 实际 评分 ，" 代 表 推 荐 算法 预测 的 评分 ，N 代 表 实 际 参与 评分 的 物品 总 数 。 

同时 在 电子 商务 网 站 中 ， 用 户 只 有 二 元 选择 ， 如 喜欢 与 不 喜欢 、 浏 览 与 否 等 。 针 对 这 种 类 型 的 数据 预测 ， 就 要 用 分 类 准确 度 ， 其 中 的 评测 指标 有 准确 率 (P， 即 precision) 、 召 回 率 (R， 即 recall) 和 
F1 指 标 。 准 确 率 表 示 用 户 对 一 个 被 推荐 产品 感 兴趣 的 可 能 性 。 召 回 率 表 示 一 个 用 户 喜欢 的 产品 被 推荐 的 概率 。F1 指 标 表 示 综 合 考虑 准确 率 与 召回 率 因 素 ， 更 好 地 评价 算法 的 优 务 。 其 中 ， 相 关 的 指标 说 明 如 
表 12-28 所 示 。 


表 12-28 分 类 准确 度 指 标 说 明 表 


预测 
项 = - | 合计 
推荐 物品 数 (IE) 未 被 推荐 物品 数 (m) 


A 


ТР + ЕМ 
ШАШ АХ ан (Л) TN FP + TN 


合计 TP 十 了 上 ТМ + ЕМ 


除了 上 述 指标 外 ， 还 有 一 些 评价 指标 如 下 : 


‚ 真正 率 TPR=TP/ (TP+FN) 意思 为 : 正 样本 预测 结果 数 / 正 样本 实际 数 ， 即 召回 率 ; 
` 假 正 率 FPR=FP/ (FP+TN) 意思 为 : 被 预测 为 正 的 负 样 本 结果 数 / 负 样本 实际 数 。 


由 于 本 例 用 户 的 行为 是 二 元 选择 ， 因 此 在 对 模型 进行 评价 的 指标 为 分 类 准确 度 指标 。 针 对 婚姻 知识 类 与 咨询 类 的 数据 进行 模型 构造 ， 通 过 3 种 推荐 算法 ， 以 及 不 同 K 值 (推荐 个 数 ，K 取 值 为 3、5、10、 
15. 20, 30) 的 情况 下 所 得 出 的 准确 率 与 召回 率 的 评价 指标 。 其 中 ， 婚 姻 知识 类 的 评价 指标 图 如 图 12-11 所 示 ， 可 从 图 中 看 出 ，Popular 算 法 是 随 着 推荐 个 数 K 的 增加 ， 其 召回 率 R 变 大 ， 准 确 率 P 变 小 。 基 于 
物品 的 协同 过 滤 算法 却 不 同 ， 随 着 推荐 个 数 K 的 增加 ， 其 召回 率 R 变 大 ， 准 确 率 P 也 会 上 升 。 当 达到 某 一 临界 点 时 ， 其 准确 率 P 随 着 K 的 增 大 而 变 小 。3 种 算法 的 其 他 评价 指标 ， 如 表 12-29 所 示 ， 可 以 从 表 中 看 
出 ， 在 此 数据 下 ， 随 机 推荐 的 结果 最 差 ， 但 是 随 着 K 值 的 增加 ， 其 F1 值 也 在 增加 ， 而 Popular 算 法 的 推荐 效果 随 着 K 值 的 增加 会 越 来 越 差 ， 其 F1 值 一 直 在 下 降 ， 相 对 协同 过 滤 算 法 ， 在 K=5 时 ， 其 F1 值 最 大 ， 


然后 也 会 随 着 K 值 增加 而 下 降 。 比 较 不 同 算法 之 间 的 差异 ， 可 以 从 图 中 看 出 ， 随 机 推荐 的 效果 最 差 。 在 K 取 值 3 和 5 时 ，Popular 算 法 优 于 协同 过 滤 算 法 。 但 是 当 K 值 增加 时 ， 其 推荐 效果 就 不 如 协同 过 滤 算 
法 。 从 图 中 可 以 看 出 协同 过 滤 算 法 相对 较 “ 稳 定 ”。 
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12-11 婚姻 知识 类 准确 率 - 召 回 率 图 
表 12-29 ”婚姻 知识 类 模型 评价 指标 


T FF 
(Ж) 

Е майе 
popular items 10 29. 48% 1. 97% 
popular items 15 | 0.12 33. 48% 1. 58% 


20.7; | 4.989 ) 
5 9. 486 , 
item-based СЕЗ | 0.03 2. 49% 
item-based CF 10 2.21% 
item-based CF 20 1.87% 
item- based CF 30 23. 48% 1.73% 


对 于 咨询 类 的 数据 ，3 种 算法 得 出 的 准确 率 与 召回 率 的 结果 如 图 12- 12 所 示 。 其 中 ， 可 以 看 出 Popular 算 法 、Random 算 法 的 准确 率 和 召回 率 都 很 低 。 但 是 协同 过 滤 算法 推荐 的 结果 比 其 他 算法 要 好 很 
多 。 造 成 这 样 的 原因 主要 是 数据 问题 : 咨询 类 的 数据 量 不 够 ， 实际 业务 中 ， 咨 询 的 网 页 会 有 很 多 ， 很 少 存在 大 量 访问 的 页 面 。 算 法 的 其 他 评价 指标 ， 如 表 12-30 所 示 ， 可 以 从 表 中 看 出 ， 在 此 数据 
下 ，Popular 算 法 与 Random 算 法 的 推荐 结果 差 ， 其 F1 值 基本 上 是 0。 协 同 过 滤 算法 ， 在 K= 5 时， 其 F1 值 最 大 ， 然 后 也 会 随 着 K 值 增加 而 下 降 。 针 对 这 种 情况 ， 协 同 过 滤 算 法 优 于 其 他 两 种 算法 。 
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precision 


0.06 ——е—— random items 
0.04 — popular items 
0.02 — item-based CF 
0.00 
0.00 0.05 0.10 0.15 0.20 0.25 
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图 12-12 ”咨询 类 准确 率 -召回 率 图 
表 12-30 ”咨询 类 模型 评价 指标 


T Nalus 


0.10% 
0. 07% 
(Ж) 
КГ. 3877.81 | 0.00% | 0.00% | 0.00% | 0.08% |0. 00% 
popular items5 | 0.00 | 5.00 | 1.19 | 3875. 81 | 0.00% | 0.00% | 0.00% | 0.13% 10.00% 
роршаг ltems 10 10. 00 3870. 51 0. 00% 0. 00% О. 00% О. 00% 
popular items 15 15. 00 OLP | 3665. 81 0. 00% 0. 00% 0. 00% О. 39% 0. 00% 
popular items 20 | 0.00 | 20.00 | 1.19 ! 3860. 81 | 0.00% | 0.00% | 0.00% 0. 00% 
papilar itame 30 30. 00 3850.81 | 0.00% | 0.00% | 0.00% | 0.77% | 0.00% 
item- based СЕ 3 3879. 96 8. 98% 8. 08% 16. 83% 
item-based СЕ 5 оз | 1з2 | 106 3879.49 | 8.48% |12.10% 112.109 | 0.03% | 16.95% 
ilem- based CEU 3878.41 | 7.62% |17.51% |17.51% | 0.06% | 15.24% 
WE WE k СЕ 3877.58 | 7.61% |21.41% |21.41% | 0.08% | 15.21% 
im -based CF20 3876.92 | 7.58% |23.63% |23.63% | 0.10% | 15.16% 
en- based CEGO 3876.00 | 7.29% |24.14% 124.14% | 0.12% | 14.57% 


3. 结 果 分 析 
通过 基于 项 目的 协同 过 滤 算 法 ， 针 对 每 个 用 户 进行 推荐 ， 推 荐 相似 度 排名 前 5 的 项 目 ， 其 婚姻 知识 类 推荐 结果 如 表 12-31 所 示 ， 其 咨询 类 的 推荐 结果 如 表 12-32 所 示 。 


#12-31 婚姻 知识 类 推荐 结果 


访问 网 址 


HA 


推荐 网 址 


1 |" http: www. * ж ж, com/info/hunyin/lihunshouxu/ 


201312042874014. html" 


|2 |" http; Www. ж ж * ж, eom/info/hunyin/lhlawlhxy/ 


201403182883138. html" 


116010 " http://www. ж * ж ж. cominlo/hunyin/ З |" http://www. * * ж ж, com/inlo/hunyin/hunyinfagui/ 
lhlawlhxy/20110707137693. html" 201411053308986. html" 
4 |" http: www. ж * * * ‚ eom/in[o/hunyin/jihuash- 
engyu/20120215163891. html" 
| 5 ]" http; www. +*+ ж + ж, com/info/hunyin/hynews/ 
201407073018800. html" 
" http://www. * жж, com/in[o/hunyin/[uyangyiwu/ 
" http:AWWww. * * * * . cominfo/hunyin/ | 201404222884700. html" 
lhlawlhss/2010120781273. html" |2 |" http://www. ж ж ж, com/inlo/hunyin/hunyinfagui/ 
" http://www. ж * ж ж. com/inlo/hunyin/ | 201410153308460. html" 
11175899 Ihlawlhzx/20120821165124. html" | 3 |" http; www. * ж ж ж, com/info/hunyin/hunyinji- 
| " http: Zwww. * * * * ‚ com/invlo/hunyin/ | ufen/pohuaijunhunzui/20130719167114. html" 
lhlawlhzx/201311292873596. html" 4 "http://www. жж жж, conv info/hunyin jiehuncaili/ 
" http: www. ж * * ж. com/inforhunyin/ | 2011011297291. html" 
lhlawlhzx/201408253306854. html" 5 |" http :www。 * * ж ж, com/info/hunyin/lhlawlhxy/ 
2011010492149. html" 
Н n шу: : WWW. Жж ж * “EO in ковуш 6 ull 
hunfangchan/20110310125984. html" 
表 12-32 咨询 类 推荐 结 
HA 访问 网 址 推荐 网 址 
| | 1 |" http://www. жж ж, com/ask/question_10243783. html" 
"http: www. жж жж. com/ask/question_ ; i 
10244513. html" | 2 "http: www. жж жж, com/ask/question_10244541. html" 
3951071 ей | [3]" http://www. * ж жж, com/ask/question_10223080. html" 
" http: Z www. . сот/ ask/ question _ у ; | | 
| 4 "http: www. = * ==. com ask question 10223488. html" 
10244238. html" Р І 
| 5 |" http://www. жж. com/ask/question_10246475. html" 
"http: Z www. . com/ ask question _ 
10383635. html" | 
21777264 l u . | 1 |" http://www. жж жж», com/ask/question_10162051. html" 
‘http Z www. . com/ask/question _ 
10383635. html" 
| " http: Z www. ж. com/ask/question _ 
22027534 | null 


10290587. html" 


上 述 整个 模型 的 构建 过 程 ， 采 用 R 实 现 ， 其 代码 如 代码 清单 12-5 所 示 。 


代码 清单 12-5 ”推荐 系统 示例 程序 


ire (recommenderlab) 
样 乔 将 圳 据 转换 为 0- = 元 型 3 数据 ， 即 模型 的 输入 数据 集 
info=as (item Lhunyi, "binaryRati о ) 
аѕк=аѕ (item ask, "binaryRatingMatrix") 
## 采 用 基于 物品 的 协同 过 滤 算 法 对 模型 数据 进行 建 模 ， 形 成 模型 
info re=Recommender (info, method="IBCF") 
ask re=Recommender (ask, method="IBCF") 
ЯНЕ) 用 模型 对 原始 数据 集 进 行 预测 并 获得 推荐 长 度 为 5 的 结果 
info p=predict (info re, info, n=5) 
sk p=predict (ask re, ask, n=5) 
итер LKT 目 录 下 的 文件 中 ， 需要 将 结果 转换 为 list 型 
## 提 ## 对 1ist 型 结果 采用 sink 与 print 命 令 将 其 保存 
sink ("preinfo.txt") 


print (as (info p, "list") ) 
sink ( Е 

sink ("ргеаѕк.іхі") 

print (as (ask р, "list") ) 
sink О z 


# Random 算 法 每 次 都 随机 挑选 用 户 没 有 产生 过 行为 的 物品 推荐 给 当前 用 户 

# Popular 算 法 则 按照 物品 的 流行 度 给 用 户 推荐 他 没有 产生 过 行为 的 物品 中 最 热门 的 物品 

# ІВСЕЯ ЖЖ Айри 的 协同 过 滤 算 法 

ННҤНННННЕЖ Ж 2р0, 5 RWIN 

#### 将 三 种 算法 形 成 一 个 算法 的 list 

algorithms <- list ( "random items" = list (name="RANDOM", 
"popular items" = list o 'POPULAR", param=NULL) , 
"item-based CF" = list 'ТВСЕ" param=NULL) ) 

ННННЕ# ЖЖАЕ УД Z x 验 划 分 成 K-10 份 ， 9 份 训 练 ，1 份 测试 

ННН уеп ях Jf RUITA F| 65 项 目 数量 (实际 数据 中 只 能 取 1) 


param=NULL) ， 


info es <- evaluationScheme (info, method="cross-validation", k=10, given=1) 
ask es <- evaluationScheme (ask, method="cross-validation", k=10, given=1) 
FERRET G Z Fa 5%] 209 2 А, 903694 AI Z £ 

#####split.es <- evaluationScheme (d, method="split", train=0.9, given=1) 
### 采 用 算法 列表 对 数据 进行 模型 预测 与 评价 ， 其 推荐 值 N 取 3， 5, 10, 15, 20, 30 

info results <- evaluate (info es, algorithms, n=c (3, 5, 10, 15, 20, 30) ) 
ask results <- evaluate (ask es, algorithms, n=c (3, 5, 10, 15, 20, 30) ) 
НЕР, h TP 介 结 果 的 图 形 

À ot (info results, "prec/rec", legend="topleft", cex=0.67) 

ot (ask results, "prec/rec", legend="topleft", cex=0.67) 

үтү 建 F1 的 评价 指 标 

fvalue<- function (р, г) Í 

return (2*p*r/ (p+r) ) 


} 

大 #### 求 两 个 模型 的 各 个 评价 指标 的 均值 ， 并 将 其 转换 为 数据 框 的 形式 
info ind=ldply (avg (info results) ) 
ask ind=ldply — (ask results) ) 
#### 将 指标 第 一 列 有 关于 模型 的 名 字 重 新 命名 
info ind [, 1] =paste (info ind [, 1] 
ask іпа [, 1] =paste (ask ind [, 1] К 
FERRERI EFL AANA AAA ATER 69 
temp info=info ind |, c (1, 6, ч 
temp аѕк=аѕк ind [, с (1, 6, 7) 1 


### 计 算 两 个 模型 的 Fl 的 指 标 ， 并 将 所 有 指 标 综 


(3，5，10，15，20，30) ) 
3, Sa ТО 35, .20, 30) 


üw Q ~ 
40 о 


info Еуа1џе=сріпа (info ind, fvalue= P (temp info [, 2] , temp info [, 3] ) ) 
ask Fvalue=cbind (ask ind, fvalue=fvalue (temp ask [, 2] , temp ask [, 31) ) 
НН КЇЇ 标 写 入 文件 中 

write.csv (info Fvalue, file=" ./tmp/infopredict ind.csv") 

write.csv (ask Fvalue, file=" ./tmp/askpredict ind.csv") 


* 代 码 详 见 : 示例 程序 /code/RecommenderSystem.R 


从 上 述 推荐 结果 可 知 ， 根 据 用 户 访问 的 相关 网 址 ， 对 用 户 进行 推荐 。 但 是 其 推荐 结果 存在 null 的 情况 。 这 种 情况 是 由 于 在 目前 的 数据 集中 ， 出 现 访问 此 网 址 的 只 有 单独 一 个 用 户 ， 因 此 在 协同 过 滤 算 法 
中 计算 它 与 其 他 物品 的 相似 度 为 0， 所 以 就 出 现 无 法 推荐 的 情况 。 一 般 出 现 这 样 的 情况 ， 在 实际 中 可 以 考虑 其 他 的 非 个 性 化 的 推荐 方法 进行 推荐 ， 如 基于 关键 字 、 基 于 相似 行为 的 用 户 进行 推荐 等 。 


由 于 本 例 采用 的 是 最 基本 的 协同 过 滤 算 法 进行 建 模 ， 因 此 得 出 的 模型 结果 也 是 一 个 初步 的 效果 ， 实 际 应 用 的 过 程 中 要 结合 业务 进行 分 析 ， 对 模型 进一步 改造 。 首 先 需要 改造 的 是 一 般 情况 下 ， 最 热门 物 


品 往往 具有 较 高 的 “相似 性 ”。 例 如 ， 热 门 的 网 址 ， 访 问 各 类 网 页 的 大 部 分 人 都 会 进行 访问 ， 在 计算 物品 相似 度 的 过 程 中 ， 就 可 以 知道 各 类 的 网 页 都 和 某 些 热门 的 网 址 有 关 。 因 此 ， 处 理 热门 网 址 的 方法 
A: 在 计算 相似 度 的 过 程 中 ， 可 以 加 强 对 热门 网 址 的 惩罚 ， 降 低 其 权重 ， 如 对 相似 度 平 均 化 、 对 数 化 等 ; 将 推荐 结果 中 的 热门 网 址 进行 过 滤 掉 ， 推 荐 其 他 的 网 址 ， 将 热门 网 址 以 热门 排行 榜 的 形式 进行 推 


ЕЗ П 9151 2-33 所 示 。 


表 12-33 ”婚姻 知识 类 热门 排行 榜 


я 址 点 击 次 数 


http: www. * жж *. com/1Info/hunyin/lhlawlhxy/20110707137693. html 离婚 协议 年 版 ) 4697 
http://www. ****, com/inlo/hunyin/jihuasheneyu/20120215163891.himl_ | 2015 最 新 上 产假 规定 574 
http://www. +*+, cominfo/hunyin/hunyinfagui/20141 1053308986. html 新 婚姻 法 2015 全 文 531 
http://www. ж ж ж ж, com/info/hunyin/jiehun/hunjia/20110920152787. html | 广州 法 是 婚假 多 少 天 222 
http://www. ****, com/info/hunyin/jihuashengyu/201411053308990. html | ЭА {Б ЭЙЕ 2015 211 


在 协同 过 滤 推 荐 过 程 中 ， 两 个 物品 相似 是 因为 它们 共同 出 现在 很 多 用 户 的 兴趣 列表 中 ， 也 可 以 说 是 每 个 用 户 的 兴趣 列表 都 对 物品 的 相似 度 产生 贡献 。 但 是 并 不 是 每 个 用 户 的 贡献 度 都 相同 。 通 常 不 活跃 
的 用 户 要 么 是 新 用 户 ， 要 么 是 只 来 过 网 站 一 两 次 的 者 用 户 。 在 实际 分 析 中 ， 一 般 认 为 新 用 户 倾 向 于 浏览 热门 物品 ， 他 们 对 网 站 还 不 熟悉 ， 只 能 点 击 首页 的 热门 物品 ， 而 老 用 户 会 逐渐 开始 浏览 冷门 的 物品 。 
因此 可 以 说 ， 活 跃 用 户 对 物品 相似 度 的 贡献 应 该 小 于 不 活跃 的 用 户 。 所 以 在 改进 相似 度 的 过 程 中 ， 取 用 户 活跃 度 对 数 的 倒数 作为 分 子 ， 即 本 例 中 相似 度 的 公式 为 : 


| 1 


JA Ay) (12-1) 


АКТЕ лун, АЕА, ARE AERA, BNN NEEE, uen AEEA ЕНЕ, ШЖ НО УЕ] 
某 一 类 数据 ， 因 此 不 存在 类 间 的 多 样 性 ， 所 以 本 节 就 不 进行 讨论 。 


М | 


当然 ， 除 了 个 性 化 推荐 列表 ， 还 有 另 一 个 重要 的 推荐 应 用 就 是 相关 推荐 列表 。 有 过 网 购 经 历 的 用 户 都 知道 ， 当 你 在 电子 商务 平台 上 购买 一 个 商品 时 ， 它 会 在 商品 信息 下 面 展 示 相 关 的 商品 。 一 种 是 包含 
购买 了 这 个 商品 的 用 户 也 经 常 购买 的 其 他 商品 ; 另 一 种 是 包含 浏览 过 这 个 商品 的 用 户 经 常 购买 的 其 他 商品 。 这 两 种 相关 推荐 列表 的 区 别 : 使 用 了 不 同 用 户 行为 计算 物品 的 相似 性 。 


[1 项 亮 .推荐 系统 实战 [M] .北京 人 民 邮 电 出 版 社 ，2012. 

[2] 图 片 来 源 于 http://www.docin.com/p-613240540.html 

[3] 图 片 引 用 了 网 站 http://www.haodaima.net/art/2167399 中 有 关于 物品 的 协同 过 滤 推 荐 的 原理 图 。 
[4] 何 晓 群 .应 用 回归 分 析 [M ] .北京 : 中 国人 民 大 学 出 版 社 ，2011. 
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1. 实 验 目的 
了 解 协 同 过 滤 算 法 在 互联 网 电子 商务 中 的 应 用 以 及 实现 过 程 。 


了解 R 语 言 连接 数据 库 ， 并 对 其 进行 操作 的 过 程 。 


依据 本 例 的 数据 抽取 以 及 数据 处 理 方法 ， 得 到 用 户 与 物品 (访问 网 页 ) 的 记录 ， 通 过 用 户 与 婚姻 知识 类 型 和 婚姻 咨询 类 型 的 数据 ， 采 用 R 语 言 构建 其 推荐 系统 模型 
` 因数 据 量 大 ， 采 用 R 连 接 数 据 库 的 方式 抽取 数据 ， 并 且 可 以 通过 R 对 数据 库 进行 日 常 的 数据 操作 。 


` 用 户 点 击 网 页 体现 了 用 户 对 某 些 网 页 的 关注 程度 ， 利 用 协同 过 滤 算 法 能 计算 出 与 菜 些 网 页 相似 的 网 页 的 相似 程度 ， 根 据 相 似 程度 的 高 低 ， 将 用 户 未 点 击 过 的 并 且 有 可 能 感 兴趣 的 网 页 推荐 给 用 户 ， 实 


现 智 能 推荐 。 

3. 实 验方 法 与 步 又 

(1) 实验 一 

利用 R 连 接 MariaDB (MySQL) ， 实 现 对 数据 的 查询 、 删 除 、 增 加 等 日 常 操作 。 
1) 打开 R， 加 载 RMySQL 包 ， 并 连接 本 地 安装 的 数据 库 ， 利 用 dbConnect 命 
2) 设置 此 连接 的 编码 格式 。 
3) 通过 dbSendQuery 命 令 ， 利 用 数据 库 的 日 常 操作 命令 SELECT、INSERT、DELETE 等 ， 
4) 完成 操作 后 ， 关 闭 此 数据 库 的 连接 。 
(2) 实验 二 
利用 R 完 成 推荐 系统 的 模型 构建 ， 以 及 预测 的 推荐 结果 ， 并 完成 模型 的 评价 工作 。 
1) 打开 R， 加 载 recommenderlab 包 ， 将 处 理 好 的 数据 转换 成 模型 的 输入 数据 。 
2) 采用 包 中 的 Recommender 命 令 构 建 推 荐 系统 模型 
3) 
4) 画 出 三 种 模型 准确 率 与 召回 率 的 指标 图 ， 并 将 各 个 指标 保存 到 文本 。 
4 思考 与 实验 总 结 
1) 如 何 通 过 R 操 作 数 据 库 中 存在 中 文 编码 的 情况 ? 


2) 如 何 设置 计算 相似 度 的 方法 ， 如 采用 余弦 方法 计算 其 物品 间 的 相似 度 ? 
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令 连 接 数据 库 。 


完成 对 数据 的 操作 ， 并 将 查询 的 结果 提取 至 R 中 。 


， 并 完成 对 原始 数据 的 预测 ， 输 出 其 推荐 结果 


采用 三 种 模型 对 输入 数据 进行 建 模 ， 用 交叉 验证 的 方法 ， 获 取 各 个 模型 不 同 推荐 值 情况 下 的 评价 指标 值 ， 并 完成 计算 出 各 个 模型 下 的 F1 指 标 。 


本 例 中 目前 主要 分 析 的 内 容 为 婚姻 知识 类 别 与 婚姻 咨询 类 别 的 有 关 记 录 ， 其 结果 比 目 前 网 页 上 基于 关键 词 的 推荐 发 散 性 比较 强 ， 取 到 一 个 互补 的 效果 。 但 由 于 公司 目前 主 莒 业务 侧重 于 咨询 方面 ， 且 在 


探索 分 析 的 环节 可 以 看 出 咨询 记录 占 整个 记录 里 的 50% 左 右 ， 因 此 对 于 咨询 类 别 页 


面 的 推荐 需要 对 其 进 
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一 步 改 造 ， 其 数据 可 以 从 用 户 访问 的 原始 数据 中 提取 如 表 12-34 所 示 。 
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* 数 据 详 见 : 示例 程 


序 /data/7law.sql 


首先 需要 解决 冷 启动 问题 ， 当 新 的 用 户 产生 ， 如 何 对 其 进 


行 推 荐 ? 然后 在 进 


行 相似 度 设 计 的 过 程 中 未 考虑 到 对 热门 网 址 的 处 理 以 及 那些 无 法 得 到 推荐 结果 的 网 页 。 由 于 在 原始 数据 中 ， 每 个 网 页 都 存在 


一 个 标题 ， 可 以 通过 采用 文本 挖掘 的 分 析 方 法 。 


通过 文本 挖掘 ， 找 出 其 每 个 网 页 文本 中 的 隐 


含 语义 ， 然 后 通过 文本 中 的 隐 合 


特征 ， 将 用 户 与 物品 联系 在 一 起 ， 相 关 的 名 称 有 LSI、pLSA、LDA 和 和 Topic 


叶 到 推荐 列表 的 结果 。 因 此 针对 本 例 的 数据 ， 可 以 采用 隐语 义 模 型 实现 推 


Model。 当 然 也 可 以 通过 这 种 方法 提取 出 天 键 字 ， 通 过 tf-idf 的 方法 对 其 关键 字 进 行 定 义 权重 ， 然 后 采用 最 近邻 的 方法 求 出 那些 无 法 
荐 ， 同 样 采 用 离线 的 方法 对 其 进行 测试 ， 然 后 对 比 各 种 推荐 方法 的 评价 指标 ， 最 后 将 各 种 推荐 结果 进行 结合 。 


125 ДЕ 


井 行 分 


本 章 主 要 介绍 了 协同 过 滤 算 法 在 电子 商务 领域 中 的 应 用 ， 实 现 对 用 户 的 个 性 化 推荐 。 通 过 对 用 户 访问 日 志 的 数据 进 


过 模型 评价 与 结果 分 析 ， 发 现 基于 物品 的 协同 过 滤 算 法 的 优 缺 点 ， 同 时 对 于 其 缺点 提出 了 改进 的 方法 。 同 时 ， 结 合 上 机 实验 


第 13 章 ”基于 数据 挖掘 扩 术 的 市 财政 收入 分 析 预 测 模型 


131 背景 与 挖掘 目标 


法 对 处 理 好 的 数据 进行 建 模 
法 的 原理 以 及 处 理 过 程 。 


分 析 与 处 理 ， 采 用 基于 物品 的 协同 过 分 析 ， 


， 有 助 于 更 好 地 理解 协同 过 滤 推 荐 算 


УЕ 最 后 通 


在 我 国 现行 的 分 税制 财政 管理 体制 下 ， 地 方 财政 收入 不 仅 是 国家 财政 收入 的 重要 组 成 部 分 


， 而 且 具 有 其 相对 独立 的 构成 内 容 。 如 何 有 效 地 利用 地 方 财 政 收入 ， 


合理 的 分 配 ， 来 促进 地 方 的 发 展 ， 提 高 


民 的 收入 和 生活 质量 是 每 个 地 方 政府 需要 考虑 的 首要 问题 。 因 此 ， 对 地 方 财政 收入 进 


行 预测 ， 不 仅 是 必要 的 ， 而 且 也 是 可 能 的 。 科 学 、 


合理 地 预测 地 方 财政 收入 ， 对 于 克服 年 度 地 方 预算 收 支 规模 确定 的 随 


意 性 和 言 目 性 ， 正 确 处 理 地 方 财政 与 


双 济 的 相互 关系 具有 十 分 重要 的 意义 。 


竺 济 中 的 地 位 举足轻重 。 目 前 ， 广 州 市 在 财政 收入 规模 、 结 构 等 方面 
行 深入 分 析 ， 提 出 对 广州 市 地 方 财源 优化 的 具体 建议 ， 


广州 作为 改革 开放 的 前 沿 城市 ， 其 经 济 发 展 在 全 国 
过 研究 ， 发 现 影响 广州 市 目前 以 及 未 来 地 方 财 源 建 设 的 因素 ， 并 对 其 进 


考虑 到 数据 的 可 得 性 ， 本 案例 所 用 的 财政 收入 分 为 地 方 一 般 预 算 收入 和 政府 性 基金 收入 。 地 方 一 般 预算 收入 包括 两 部 分 
40%， 地 方 享有 的 25% 的 增值 税 、 营 业 税 、 外 花 税 等 ， 另 一 部 分 为 非 税 收入 ， 包 括 专项 收入 、 行 政事 业 性 收费 、 罚 没收 入 、 
让 土地 、 发 行 彩票 等 方式 取得 收入 ， 并 专项 用 于 支持 特定 基础 设施 建设 和 社会 事业 发 展 的 收入 。 
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与 北京 、 上 海 、 深 圳 等 城市 仍 有 一 定 差距 ， 人 存在 不 断 完 善 的 空间 。 本 案例 绅 
供 政府 决策 参考 ， 同 时 为 其 他 经 济 发 展 较 快 的 城市 提供 借鉴 。 


在 通 


部 分 为 税收 收入 ， 主 要 包括 企业 所 得 税 和 地 方 所 得 税 中 中 央 和 地 方 共享 的 
国有 资本 经 营 收 入 和 其 他 收入 等 。 政 府 性 基金 收入 是 国家 通过 向 社会 征收 以 及 出 


经 营 


由 于 1994 年 我 国 对 财政 体制 进 
1994 年 及 其 以 后 的 数据 进 


行 了 重大 改革 ， 开 始 实行 分 税制 财政 体制 
井 行 分 析 ， 本 案例 所 用 数据 均 来 自 《 广 州 市 统计 年 鉴 》 (1995-2014) 。 


响 了 财政 收入 相关 数据 的 连 


‚ PI 


表 13-1 


续 性 ， 在 1994 年 前 后 不 具有 可 比 性 。 由 于 没有 合适 


广州 市 财政 收入 及 其 相关 数据 


天 的 数学 手段 来 调整 这 种 数据 的 跃 变 ， 仪 对 


пр 社会 “| 在 岗 职 工 о, 年 未 地 区 生产 | 第 一 产业 | „| 
从 业 人 数 | тїй | ны | о, 总 人 口 总 值 | 产值 


1994 | 3 831 732 


表 13-1 给 出 了 广州 市 1994~2013 年 财政 收入 以 及 相关 因素 的 数据 ， 为 进一步 寻找 广州 市 财政 收入 的 关键 影响 因素 做 准备 。 


1995 | 3913 824 
1996 | 3 928 907 


本 次 数据 挖掘 建 模 目 标 如 下 : 
Т) 梳理 影响 地 方 财 政 收入 的 关键 特征 ， 分 析 、 识 别 影 响 地 方 财 政 收入 的 关键 特征 的 选择 模型 ; 


2) 结合 目标 1 的 因素 分 析 ， 对 广州 市 2015 年 的 财政 总 收入 及 各 个 类 别 收 入 进行 预测 。 
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131 ”背景 与 挖掘 目标 


在 我 国 现行 的 分 税制 财政 管理 体制 下 ， 地 方 财政 收入 不 仅 是 国家 财政 收入 的 重要 组 成 部 分 ， 而 且 具 有 其 相对 独立 的 构成 内 容 。 如 何 有 效 地 利用 地 方 财 政 收入 ， 合 理 的 分 配 ， 来 促进 地 方 的 发 展 ， 提 高 市 
民 的 收入 和 生活 质量 是 每 个 地 方 政 府 需 要 考虑 的 首要 问题 。 因 此 ， 对 地 方 财政 收入 进行 预测 ， 不 仅 是 必要 的 ， 而 且 也 是 可 能 的 。 科 学 、 合 理 地 预测 地 方 财政 收入 ， 对 于 克服 年 度 地 方 预算 收 支 规模 确定 的 随 
意 性 和 盲目 性 ， 正 确 处 理 地 方 财 政 与 经 济 的 相互 关系 具有 十 分 重要 的 意义 。 


广州 作为 改革 开放 的 前 沿 城市 ， 其 经 济 发 展 在 全 国 经 济 中 的 地 位 举足轻重 。 目 前 ， 广 州 市 在 财政 收入 规模 、 结 构 等 方面 与 北京 、 上 海 、 深 圳 等 城市 仍 有 一 定 差距 ， 人 存在 不 断 完善 的 空间 。 本 案例 旨 企 通 
过 研究 ， 发 现 影响 广州 市 目前 以 及 未 来 地 方 财源 建设 的 因素 ， 并 对 其 进行 深入 分 析 ， 提 出 对 广州 市 地 方 财源 优化 的 具体 建议 ， 供 政府 决策 参考 ， 同 时 为 其 他 经 济 发 展 较 快 的 城市 提供 借鉴 。 


考虑 到 | 数据 的 可 得 性 ， 本 案例 所 用 的 财政 收入 分 为 地 方 一 般 预 算 收 入 和 政府 性 基金 收入 。 地 方 一 般 预 算 收 入 包括 两 部 分 : 一 部 分 为 税收 收入 ， 主 要 包括 企业 所 得 税 和 地 方 所 得 税 中 中 央 和 地 方 共 享 的 
40%， 地 方 享 有 的 25% 的 增值 税 、 营 业 税 、 印 花 税 等 ， 另 一 部 分 为 非 税收 入 ， 包 括 专项 收入 、 行 政事 业 性 收费 、 罚 没收 入 、 国 有 资本 经 营 收入 和 其 他 收入 等 。 政 府 性 基金 收入 是 国家 通过 向 社会 征收 以 及 出 
让 土地 、 友 行 彩票 等 方式 取得 收入 ， 并 专项 用 于 支持 特定 基础 设施 建设 和 社会 事业 发 展 的 收入 。 


由 于 1994 年 我 国 对 财政 体制 进行 了 重大 改革 ， 开 始 实行 分 税制 财政 体制 ， 影 响 了 财政 收入 相关 数据 的 连续 性 ， 在 1994 年 前 后 不 具有 可 比 性 。 由 于 没有 合适 的 数学 手段 来 调整 这 种 数据 的 跃 变 ， 仅 对 
1994 年 及 其 以 后 的 数据 进行 分 析 ， 本 案例 所 用 数据 均 来 自 《 广 州 市 统计 年 鉴 》 (1995-2014) 。 


表 13-1 广州 市 财政 收入 及 其 相关 数据 


日 期 社会 ”| 在 岗 职 工 地 区 生产 | 第 一 产业 税收 居民 消费 
从 业 人 数 | 工资 总 额 总 值 产值 价格 指数 


表 13-1 给 出 了 广州 市 1994~2013 年 财政 收入 以 及 相关 因素 的 数据 ， 为 进一步 寻找 广州 市 财政 收入 的 关键 影响 因素 做 准备 。 
本 次 数据 挖掘 建 模 目 标 如 下 : 
Т) 梳理 影响 地 方 财 政 收入 的 关键 特征 ， 分 析 、 识 别 影 响 地 方 财 政 收入 的 关键 特征 的 选择 模型 ; 


2) 结合 目标 1 的 因素 分 析 ， 对 广州 市 2015 年 的 财政 总 收入 及 各 个 类 别 收入 进行 预测 。 


13.2 分 析 万 法 与 过 程 


ШШ 


我 国 很 多 学 者 已 经 对 财政 收入 的 影响 因素 进行 了 很 多 研究 ， 但 是 他 们 大 多 先 建立 财政 收入 与 各 待定 影响 因素 之 间 的 多 元 线性 回归 模型 ， 运 用 最 小 二 乘 估计 方法 来 估计 回归 模型 的 系数 ， 通 过 系数 能 否 
过 检验 来 检验 它们 之 间 的 关系 ， 这 样 的 结果 对 数据 的 依赖 程度 很 大 ， 并 且 普 通 最 小 二 乘 估计 求 得 的 解 往往 是 局 部 最 优 解 ， 后 续 的 检验 可 能 就 会 失去 应 有 的 意义 。 

近 几 十 年 来 ， 现 代 统 计 技 术 不 断 完 善 和 发 展 ， 对 新 的 数据 运用 新 的 方法 来 考察 地 方 财政 收入 影响 因素 是 有 必要 的 。 本 案例 在 已 有 研究 的 基础 上 运用 Adaptive-Lasso 变 量 选择 方法 来 研究 影响 地 方 财政 收 
入 的 因素 。 

在 以 往 的 文献 中 ， 对 影响 财政 收入 因素 的 分 析 中 大 多 使 用 普通 最 小 二 乘法 来 对 回归 模型 的 系数 进行 估计 ， 预 测 变量 的 选取 则 采用 的 是 逐步 回归 。 然 而 ， 无 论 是 最 小 二 乘法 还 是 逐步 回归 ， 都 有 其 不 足 之 
处 。 它 们 一 般 都 局 限于 局 部 最 优 解 而 不 是 全 局 最 优 解 。 如 果 预 测 变量 过 多 ， 子 集 选择 的 计算 过 程 具 有 不 可 实行 性 ， 且 子 集 选 择 具有 内 在 的 不 连续 性 ， 从 而 导致 子 集 选 择 极度 多 变 。Lasso 是 近年 来 被 广泛 应 用 
于 参数 估计 和 变量 选择 的 方法 之 一 ， 并 且 Lasso 进 行 变量 选择 在 确定 的 条 件 下 已 经 被 证 明 是 一 致 的 。 案 例 选 用 了 Adaptive-Lasso 方 法 来 探究 地 方 财政 收入 与 各 因素 之 间 的 关系 。 


Lasso 是 由 Tibshiranil ] 提 出 的 将 参数 估计 与 变量 选择 同时 进行 的 一 种 正则 化 方法 。Lasso 参 数 估计 被 定义 如 下 : 


р 2 р 
В( Іаѕво) = argmin у 一 2, xB; | +À 2, F2 | (13-1) 


p 


I . ы АУ | т 
式 中 ，》 为 非 负 正则 参数 ，^ 评 “8 кт. 


Lasso 方 法 虽然 可 以 解决 最 小 二 乘法 和 逐步 回归 局 部 最 优 估计 的 不 足 ， 但 是 其 自身 需要 满足 一 定 的 苛刻 条 件 。Zou 四 提出 了 一 种 改进 的 Lasso 方 法 ， 其 改进 之 处 在 于 给 不 同 的 系数 加 上 不 同 的 权重 ， 被 称 
为 Adaptive-Lasso 方 法 ， 定 义 如 下 : 
Р 2 р 


B` з = argmin у 一 x х В, + À, Ӯ. 0), В, | (13-2) 


j=l j=] 


一 


式 中 , 权重。 8” (ү>0) , ，j=1，2，..….，p， 有 为 由 普通 最 小 二 乘法 得 出 的 系数 。 


设 变 量 X (0) = {X (0) (i) ，i=1，2，...，n} 为 一 非 负 单 调 原始 数据 序列 ， 建 立 灰 色 预 测 模型 : 首先 对 X O 进行 一 次 累加 得 到 一 次 累加 序列 X О) ={X О) (к), k=1, 2, .., п}, 


对 X (1) 可 建立 下 述 一 阶 线性 微分 方程 : 
yil) 
ал 


BIGM (1, 1) 模型 。 


+ aX = и (13-3) 


求解 微分 方程 ， 得 到 预测 模型 


Х'(Е+1) = |8 (0) –- је + (13-4) 
il ad 


由 于 GM (1, 1) 模型 得 到 的 是 一 次 累加 量 ,将 GM (1, 1) 模型 所 得 数据 O+ ORRIRA +1), Врх (0) 的 灰色 预测 模型 为 : 
Fa, 
тёп ( 0 ) Г = т „бу IL =a 4 
X (Е+1) = (е -1) |х (n) = |е (13-5) 


后 验 差 检 验 模型 精度 表 如 表 13-2 所 示 。 


Р ТГ 
>0. 80 Т 
от кан 


1321 ”灰色 预测 与 神经 网 络 的 组 合 模型 


在 Adaptive-Lasso 变 量 选 择 的 基础 上 ， 鉴 于 灰色 预测 对 小 数据 量 数据 预测 的 优良 性 能 ， 对 单个 选 定 的 影响 因素 建立 灰色 预测 模型 ， 得 到 它们 在 2014 年 及 2015 年 的 预测 值 。 由 于 神经 网 络 较 强 的 适用 性 
和 容错 能 力 ， 对 历史 数据 建立 训练 模型 ， 把 灰色 预测 的 数据 结果 代入 训练 好 的 模型 中 ， 就 得 到 了 充分 考虑 历史 信息 的 预测 结果 ， 即 2015 年 广州 市 财政 收入 及 各 个 类 别 的 收入 。 


图 13-1 为 基于 数据 挖掘 技术 的 财政 收入 分 析 预 测 模型 流程 ， 主 要 包括 以 下 步骤 日]: 

1) 从 广州 市 统计 局 网 站 以 及 各 统计 年 鉴 搜集 到 广州 市 财政 收入 以 及 各 类 别 收 入 相关 数据 
2) 利用 1) 形成 的 已 完成 数据 预 处 理 的 建 模 数据 ， 建 立 Adaptive-Lasso 变 量 选择 模型 ， 
3) 在 2) 的 基础 上 建立 单 变量 的 灰色 预测 模型 以 及 人 工 神经 网 络 预测 模型 ， 


4) 利用 3) 的 预测 值 代入 构建 好 的 人 工 神经 网 络 模型 中 ， 从 而 得 到 2014 年 及 2015 年 广州 市 财政 收入 以 及 各 类 别 收 入 的 预测 值 。 


统计 年 鉴 © 数据 抽取 > 建 模 & 预 测 > 结果 & 反 馈 


GM (1,1) 
模型 优化 与 重 构 


Lx. i 


AND 
模型 


自动 预测 


图 13-1 基于 数据 挖掘 技术 的 财政 收入 分 析 预 测 模 型 流程 


13.22 ”数据 探索 分 析 


影响 财政 收入 (у) 的 因素 有 很 多 ， 在 查阅 大 量 文 献 的 基础 上 ， 通 过 经 济 理论 对 财政 收入 的 解释 以 及 对 实践 的 观察 ， 考 虑 一 些 与 能 源 消 耗 关系 密切 并 且 直 观 上 有 线性 关系 的 因素 ， 初 步 选取 以 下 因素 为 自 


变量 ， 分 析 它 们 之 间 的 关系 。 
社会 从 业 人 数 (x1) : 就 业 人 数 的 上 升 伴随 着 居民 消费 水 平 的 提高 ， 从 而 间接 影响 财政 收入 的 增加 。 
在 岗 职工 工资 总 额 (x2) : 反映 的 是 社会 分 配 情况 ， 主 要 影响 财政 收入 中 的 个 人 所 得 税 、 房 产 税 以 及 潜在 消费 能 力 。 


社会 消费 品 零售 总 额 (х3) : 代表 社会 整体 消费 情况 ， 是 可 支配 收入 在 经 济 生活 中 的 实现 。 当 社会 消费 品 零售 总 额 增长 时 ， 表 明 社 会 消费 意愿 强烈 ， 部 分 程度 上 会 导致 财政 收入 中 增值 税 的 增长 ;同时 
当 消 费 增长 时 ， 也 会 引起 经 济 系统 中 其 他 方面 发 生变 动 ， 最 终 导 致 财政 收入 的 增长 。 


城镇 届 民 人 均 可 支配 收入 (x4) : 居民 收入 越 高 消费 能 力 越 强 ， 同 时 意味 着 其 工作 积极 性 越 高 ， 创 造 出 的 财富 越 多 ， 从 而 能 带 来 财政 收入 的 更 快 和 持续 增长 。 

城镇 居民 人 均 消 费 性 支出 (x5) : 居民 人 在 消费 商品 的 过 程 中 会 产生 各 种 税 费 ， 税 费 又 是 调节 生产 规模 的 手段 之 一 。 在 商品 经 济 发 达 的 如 今 ， 居 民 消 费 得 越 多 ， 对 财政 收入 的 贡献 就 越 大 。 
年 末 总 人 口 (х6) : 在 地 方 经 济 发 展 水 平 既定 的 条 件 下 ， 人 均 地 方 财政 收入 与 地 方 人 口 数 呈 反比 例 变化 。 

全 社会 固定 资产 投资 额 (x7) : 是 建造 和 购置 固定 资产 的 经 济 活动 ， 即 固定 资产 再 生产 活动 。 主 要 通过 投资 来 促进 经 济 增长 ， 扩 大 税源 ， 进 而 拉动 财政 税收 收入 整体 增长 。 


地 区 生产 总 值 (x8) : 表示 地 方 经 济 发 展 水 平 。 一 般 来 讲 ， 政 府 财政 收入 来 源 于 即 期 的 地 区 生产 总 值 。 在 国家 经 济 政策 不 变 、 社 会 秩序 稳定 的 情况 下 ， 地 方 经 济 发 展 水 平 与 地 方 财 政 收入 之 间 存 在 着 密 
切 的 相关 性 ， 越 是 经 济 发 达 的 地 区 ， 其 财政 收入 的 规模 就 越 大 。 


第 一 产业 产值 (x9) : 取消 农业 税 、 实 施 三 农 政策 ， 第 一 产业 对 财政 收入 的 影响 更 小 。 

税收 (x10) : 由 于 其 具有 征收 的 强制 性 、 无 偿 性 和 固定 性 特点 ， 可 以 为 政府 履行 其 职能 提供 充足 的 资金 来 源 。 因 此 ， 各 国都 将 其 作为 政府 财政 收入 最 重要 的 收入 形式 和 来 源 。 
居民 消费 价格 指数 (x11) : 反映 居民 家 庭 购买 的 消费 品 及 服务 价格 水 平 的 变动 情况 ， 影 响 城乡 居民 的 生活 支出 和 国家 的 财政 收入 。 

第 三 产业 与 第 二 产业 产值 比 (х12) : 表示 产业 结构 。 三 次 产业 生产 总 值 代 表 国 民 经 济 水 平 ， 是 财政 收入 的 主要 影响 因素 ， 当 产业 结构 逐步 优化 时 ， 财 政 收入 也 会 随 之 增加 。 
居民 消费 水 平 (x13) : 在 很 大 程度 上 受 整 体 经 济 状 况 GDP 的 影响 ， 从 而 间接 影响 地 方 财政 收入 。 

(1) 摘 述 分 析 


首先 对 已 有 数据 进行 描述 性 统计 分 析 ， 获 得 对 数据 的 整体 性 认识 ， 表 13-3 给 出 了 主要 变量 的 描述 性 统计 结果 。 由 表 可 见 ， 财 政 收 入 (y) 的 均值 和 标准 差分 别 为 618.08 和 609.25， 这 说 明 : 第 一 ,广州 
市 各 年 份 财政 收入 存在 较 大 差异 ; 第 二 ，2008 年 后 ， 广 州 市 各 年 份 财政 收入 大 幅 上 升 。 


表 13-3 主要 变量 的 描述 性 统计 


变量 — G — s SD 
х] 3 831 732. 00 126 219. 50 
х9 5.05 


x13 5321. 00 41 972. 00 17 273. 80 11 109. 1 
у 64. 87 2088. 14 618. 08 609. 2 


È: Min 为 最 小 值 ，Max 为 最 大 值 ，Mean 为 均值 ，SD 为 标准 差 。 
代码 清单 13-1 是 原始 数据 概括 性 度量 。 


代码 清单 13-1 原始 数据 概括 性 度量 


FERIRA 

## 设 置 工作 空间 | | 
# 把 “数据 及 程序 ”文件 夹 复 制 到 F 盘 下 ， 再 用 setwd 设 置 工作 空间 setwqd ("Е: /数据 及 程序 /chapter13/ 示 例 程 序 ") 
# 读 入 数据 


Data=read.csv ("./data/datal.csv", header=T) [, 2: 15] 
### 数 据 概括 性 度量 

Min=sapply (Data, min) # 最 小 值 

Max=sapply (Data, max) 最 大 值 

Mean=sapply (Data, mean) # 均 值 

SD=sapply (Data, за) 方差 


сріпа (Min, Max, Mean, SD) 


* 代 码 详 见 : 示例 程序 /code/gaikuo.R 
(2) 相关 分 析 
相关 系数 可 以 用 来 描述 定量 变量 之 间 的 关系 ， 初 步 判 断 因 变 量 与 解释 变量 之 间 是 否 具有 线性 相关 性 。 表 13-4 是 变量 Pearson 相 关系 数 和 矩阵 。 


表 13-4 变量 Pearson 相 关系 数 和 矩阵 
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由 表 13-4 可 知 ， 居 民 消 费 价格 指数 (x11) 与 财政 收入 的 线性 关系 不 显著 ， 而 且 呈 现 负 相关 。 其 余 变 


代码 清单 13-2 ”原始 数据 求解 Pearson 相 关系 数 ## 设 置 工作 空间 


## 设 置 工作 空间 

# 把 “数据 及 程序 ”文件 夹 复制 到 FE 盘 下 ， 再 用 setwq 设 置 工作 空间 
setwd ("Е: /数据 及 程序 /chapter13/ 示 例 程 序 ' ') 

# 读 入 数据 

Data=read.csv ("./data/datal .csv", 
#pearson 相 关系 数 ， 保 留 两 位 小 数 

round (cor (Data, method = с ("pearson") ) ，2) 


header=T) [, 2: 15] 


* 代 码 详 见 : 示例 程序 /code/cotrelation.R 


13.23 ”模型 构建 


1.Adaptive-Lasso 变 量 选择 模型 


运用 LARS 算 法 来 解决 公式 (13-2) 的 Adaptive-Lasso 估 计 ， 对 于 每 给 一 个 y， 该 算法 会 


表 13-5 


系数 表 


Adaptive-Lasso 变 量 选择 如 代码 清单 13-3 所 示 。 


代码 清单 13-3 ” Adaptive-Lasso 变 量 选择 


## 设 置 工作 空 空间 

# 把 “数据 及 程序 ”文件 夹 复 制 到 F 盘 下 ， 再 用 setwd 设 置 工作 空间 
setwd ("Е: /数据 及 程序 /chapter13/ 示 例 程 序 ") 

# 读 入 数据 

Data=read.csv ("./data/datal .csv", 
# 加 载 adapt-lasso 源 代码 

source ("./code/lasso.adapt.bic2.txt") 
outl<-lasso.adapt.bic2 (x=Data [, 1: 13], 
#adapt-lasso 输 出 结果 名 称 

names (out1) 

坦 变 量 选择 输出 结果 序号 

out1$x.ind 

# 保 留 五 位 小 数 

round (outl$coeff, 5) 

# 保 存 adapt-lasso 模 型 

save (out, file="./tmp/outl.RData") 


header=T) [, 2: 15] 


y=DataSy) 


* 代 码 详 见 : 示例 程序 /code/adaptive-lasso1.R 


由 表 13-5 可 以 看 出 ,年末 总 人 口 、 地 区 生产 总 值 、 第 一 产业 产值 、 税 收 、 居 民 消 费 价格 指数 、 第 三 产业 与 第 二 产业 产值 比 以 及 居民 消费 水 平等 因素 的 系数 为 0%， 即 在 模型 建立 的 过 程 中 这 几 
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-0.15| 0.90| 1.00) 0.99 
E 0.99| 0.98 
1.00| —0. 17 0. 99 


_0.17| 1.00 Egr 
0.90| —0.43 0. 87 


— Ü. 23 
0. 91 
0.9 
0. 98 
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量 均 与 财政 收入 呈现 高 度 的 正 相关 关系 。 原 始 数据 求解 Pearson 相 关系 数 如 代码 清单 13-2 所 示 。 


行 得 到 如 下 结果 ， 如 表 13-5 所 示 。 


网 


用 R 语 言 编制 相应 的 程序 后 


个 变量 被 易 


除了 。 这 是 因为 居民 消费 水 平 与 城镇 居民 人 均 消费 性 支出 存在 明显 的 共 线性 ，Adaptive-Lasso 方 法 在 构建 模型 的 过 程 中 剔除 了 这 个 变量 ; 由 于 广州 存在 流动 人 口 与 外 来 打工 人 口 多 的 特性 ， 年 未 总 人 口 并 不 


显著 影响 广州 市 财政 收入 ; 居民 消费 价格 指数 与 财政 收入 的 相关 性 太 小 以 致 可 以 忽略 ; 由 于 农 牧 业 各 税 在 各 项 税收 总 额 中 所 占 比 重 过 小 ， 
能 够 剔除 存在 共 线 性 关系 的 变量 


贡献 率 极 低 ; 其 他 变量 被 剔除 均 有 类 似 于 上 述 的 原因 。 这 说 明 Adaptive-Lasso 方 法 在 构建 模型 时 ， 


综 上 所 述 ， 利 用 Adaptive-Lasso 方 法 识别 影响 财政 收入 的 关键 影响 因素 是 社会 从 业 人 数 、 在 岗 职工 工资 总 额 、 
定 资产 投资 额 。 


2. 财 政 收入 及 各 类 别 收 入 预测 模型 


而 且 广州 于 2005 年 取消 了 农业 税 ， 因 而 第 一 产业 对 地 方 财政 收入 的 
， 同 时 体现 了 Adaptive-Lasso 方 法 对 多 指标 进行 建 模 的 优势 。 


社会 消费 品 零售 总 额 、 城 镇 居民 人 均 可 支配 收入 、 城 镇 居民 人 均 消费 性 支出 以 及 全 社会 固 


(1) 广州 市 财政 收入 预测 模型 


对 Adaptive-Lasso 变 量 选 择 方法 识别 的 影响 财政 收入 的 因素 建立 灰色 预测 与 神经 网 络 的 组 合 预测 模型 ， 其 参数 设置 为 误差 精度 10-， 学 习 次 数 10000 次 ， 神 经 元 个 数 为 Lasso 变 量 选择 方法 选择 的 变量 个 
数 6。 社 会 从 业 人 数 (x1) 、 在 岗 职 工 工资 总 额 (х2) 、 社 会 消费 品 零售 总 额 (x3) 、 城 镇 居民 人 均 可 支配 收入 (x4) 、 城 镇 居民 人 均 消 费 性 支出 (x5) 、 全 社会 固定 资产 投资 额 (x7) 指标 的 2014 年 及 
2015 年 数值 通过 R 语 言 建立 灰色 预测 模型 得 出 ， 预 测 精度 等 级 如 表 13-6 所 示 ， 灰 色 预 测 模型 有 很 好 的 效果 。 


表 13-6 ”灰色 预测 模型 地 方 财政 收 入 相关 因素 精度 


= R х7 
2014 FiA & 142 148 2239. 295 7042. 313 43611. 84 35046. 63 4600. 405 
РЕ 好 


地 方 财政 收入 灰色 预测 如 代码 清单 13-4 所 示 。 


代码 清单 13-4 地方 财政 收入 灰色 预测 


## 设 置 工作 空间 

# 把 “数据 及 程序 ”文件 夹 复制 到 FE 盘 下 ， 再 用 setwq 设 置 工作 空间 
setwd ("F: /数据 及 程序 /chapter13/ 示 例 程 序 ! tj 

# 读 入 数据 

Data=read.csv ("./data/datal.csv", header=T) 

# 加 载 GM (1, 1) 源 文件 
source ("./code /gmll.txt") 

от11 (x1/10000, length ы бой +2) 
11 (х2, lenoth (х2) +2) 


gm 

от11 (х3, length (х3) +2) 
от1] (х4, length (х4) +2) 
gm 
gm 


11 (x5, length (x5) +2) 
11 (x7, length (x7) +2) 


* 代 码 详 见 : 示例 程序 /code/huise1.R 


代入 地 方 财 政 收入 所 建立 的 神经 网 络 预测 模型 ， 得 到 广州 市 财政 收入 2015 年 的 预测 值 为 2725.22 亿 元 ， 相 关 数 据 如 表 13-7 所 示 ， 其 中 加 粗 字 体 的 数据 为 预测 数据 。 图 13-2 为 神经 网 络 地 方 财 政 收 入 
值 与 预测 值 对 比 图 。 


表 13-7 地 方 财政 收入 及 其 相关 因素 历史 数据 和 预测 表 


кой 


кой 


* 数 据 详 见 : 示例 程序 /data/tevenue.csv 


e 地 方 财 政 收入 预测 值 
x 地方 财 政 收 入 真实 但 


万 万 
[ы 
T 
= 
с 


地 方 财政 收入 / 


1994 1997 2000 2003 2006 2009 2012 2015 
Ep 
图 13-2 ”地 方 财政 收入 真实 值 与 预测 值 对 比 图 
地 方 财政 收入 神经 网 络 预测 模型 如 代码 清单 13-5 所 示 。 


代码 清单 13-5 “地方 财政 收入 神经 网 络 预测 模型 


НЕ E TL 4E Z ja] 

library (nnet) 

setwd ("F: /数据 及 程序 /chapter13/ 示 例 程 序 ") 

# 读 入 数据 

Data=read.csv ("./data/revenue.csv", Һеадег=Е) 

asData=scale (Data) 

colnames (asData) <- с ("х1", "х2", "жо Vd "хо", "жу", wy") ## 2] 2] Z 

nn<-nnet (y~., asData [1: 21, |, size=6, decay=0.00000001, maxit=10000, linout=T, trace=T) predict<-predict (nn, asData [, 1: 6] ) 
predict=predict*sd (Data [1: 21, 7] ) +mean (Data [1: 21, 7] ) 

a=1994: 2015 

# H Д] Ла. A 245 842 

plot (predict, col='red', type='b'，pch=16，xlab=' 年 份 '"，ylab=' 地 方 财政 收入 / 万 元 '，xaxt="n" 

points (Data [1: 21, 7] , col='blue', type='b', pch=4) 

legend ('topleft', с (' 地 方 财政 收入 预测 值 '， АЕ ) , pch=c (16, 4) , col=c ('геа', 'blue') ) 
axis (1, аї=1: 22, labels=a) 


* 代 码 详 见 : 示例 程序 /code/yuce1.R 
(2) 增值 税 预测 模型 


利用 Adaptive-Lasso 方 法 进行 增值 税 影响 因素 的 变量 选择 ， 通 过 表 13-8 可 以 看 出 ， 商 品 进口 总 值 (x1) 、 工 业 增 加 值 (x3) 和 工业 增加 值 占 GDP 比 重 (x5) 这 三 个 因素 进入 选择 ， 其 他 因素 的 系数 为 
0。 因 为 根据 工业 增加 值 及 其 占 GDP 比 重 可 以 算出 地 区 生产 总 值 ， 所 以 Adaptive-Lasso 方 法 在 构建 模型 的 过 程 中 剔除 了 地 区 生产 总 值 这 个 变量 ; 由 于 批发 零售 业 对 增值 税 的 贡献 率 较 低 ， 所 以 该 因素 也 被 易 
除 。 


表 13-8 系数 表 


х 2 e х8 
— 1365. 173 46 О. 000 00 0. 060 98 О. 000 00 —447 747. 889 28 


Adaptive-Lasso 变 量 选择 如 代码 清单 13-6 所 示 。 


代码 清单 13-6 ” Adaptive-Lasso 变 量 选择 


## 设 置 工作 空间 
# 把 “数据 及 程序 ”文件 夹 复制 到 FE 盘 下 ， 再 用 Setwd 设 置 工作 空间 
setwd ("F: /数据 及 程序 /chapter13/ 示 例 程序 ") 
# 读 入 数据 
Data=read.csv ("./data/data2.csv", header=T) [, 2: 8] 
# 加 载 adapt-lasso 源 代码 
source ("./code/lasso.adapt .bic2.txt") 
out2<-lasso.adapt.bic2 (x=Data [, 1: 5] , y=Data$y) 
#adapt-lasso 输 出 结果 名 称 
(out2) 
变量 选择 输 出 告 果 序 号 
o ind 
# 保 留 五 位 小 数 
round (out2$coeff, 5) 
# 保 存 adapt-lasso 模 型 
save (out2, file="./tmp/out2.RData") 


* 代 码 详 见 : 示例 程序 /code/adaptive-lasso2.R 
对 Adaptive-Lasso 变 量 选择 方法 识别 的 影响 增值 税 的 因素 建立 神经 网 络 预测 模型 ， 其 参数 设置 为 误差 精度 10-7， 学 习 次 数 10000 次 ， 神 经 元 个 数 为 Lasso 变 量 选 择 方法 选择 的 变量 个 数 3。 商 品 进口 总 值 
(х1) 、 工 业 增 加 值 (х3) 和 工业 增加 值 占 GDP 比 重 (x5) 指标 的 2014 年 及 2015 年 数值 通过 Ri 语言 建立 灰色 预测 模型 得 出 ， 后 验 差 比值 、 预 测 精 度 等 级 如 表 13-9 所 示 ， 灰 色 预 测 模型 有 较 好 的 效果 。 
表 13-9 灰色 预测 模型 增值 税 相关 因素 精度 表 
= z [= = =x 
后 验 差 比值 0. 1853 ( <0.35) О. 0807 0. 5067 2 [08:5 . 0.65]) 
顶 测 精度 等 级 _ 好 | 好 |\йй 


增值 税 灰 色 预 测 如 代码 清单 13-7 所 示 。 
代码 清单 13-7 “增值 税 灰 色 预 测 


HHR я то ја] 
# 把 “数据 及 程序 ”文件 夹 复制 到 F 盘 下 ， 再 用 Setwd 设 置 工作 空间 
setwd ( “F: /数据 及 程序 /chapter13/ 示 例 程序 ”) 

# 读 入 数据 

Data=read.csv ("./data/data2.csv",header=T) 

# 加 载 GM (1, 1) 源 文件 
source ("./code/gm11.txt") 
gml1 (xl, length (х1) + 
gmll (х3/10000, length (х3/10000) +2 
gmll (x5, length (х5) +2) 


№ 


x 


* 代 码 详 见 : 示例 程序 /code/huise2.R 


代入 增值 税 所 建立 的 神经 网 络 预 测 模型 ， 得 到 增值 税 的 2015 年 预测 值 为 2648364 万 元 ， 相 关 数 据 如 表 13-10 所 示 ， 其 中 加 粗 字体 的 数据 为 预测 数据 。 图 13-3 为 神经 网 络 增值 税 真实 值 与 预测 值 对 比 图 。 


表 13-10 ”增值 税 及 其 相关 因素 历史 数据 和 预测 表 


和 


л 


0. 373051 
0. 352216 
0. 336237 
0. 328014 
О. 34963 

0. 358193 
О. 357756 
0. 366172 
0. 36454 

О. 358675 
0. 341133 
0. 33912 

0. 333289 
0. 31467 


2013 560. 89 47 548 175 О. 308351 
2014 767. 59 58 163 230 0. 329 009 9 
2015 862. 30) 65 803 730 0. 327 1446 


* 数 据 详 见 : 示例 程序 /data/VAT.csv 


e ЗЕРТ ИЕ 


х 增值 税 真实 值 


2 000 000 


500 000 e 


1999 2001 2003 2005 2007 
图 13-3 ”增值 税 真实 值 与 预测 值 对 比 图 
增值 税 神经 网 络 预测 模型 如 代码 清单 13-8 所 示 ， 
代码 清单 13-8“ 增 信 税 神经 网 络 预测 模型 


## 设 置 工作 空间 

library (nnet) 

setwd ("F: /数据 及 程序 /chapter13/ 示 例 程序 ") 

# 读 入 数据 

Data=read.csv ("./data/VAT.csv", Һеадег=Е) 

asData=scale (Data) 

colnames (asData) <- с ("х1", "х3", "х5", "y") # 每 列 列 名 

nn<-nnet (y~., asData [1: 15, |, size=3, decay=0.00001, maxit=10000, linout=T, trace=T) 


2009 


2011 


增值 税 / 万 元 
288 972 
350 495 
443 213 
526 377 
581 598 
528 365 
616 119 
967 265 

1 115 007 

1 287 226 

1 375 085 

1 594 182 

1 573 830 

| 758 311 

2216017 
2 447 292 
2 648 364 


2013 


2015 


predict<-predict (пп, as 


Data [, 1: 3] 


‚ type=" raw" 


predict=predict*sd (Data [1: 15, 4] ) +mean (Data [1: 15, 4] ) 


а=1999: 2015 


# 画 出 序列 预测 值 、 真 实 值 图 像 


plot (predict, col='red', 
points (Data [1: 15, 4| 


legend ('topleft 


axis (1, аб=1 17, 


‚ Col= 


type='b', 
'blue' 


'，C(' 增 值 税 预 测 值 '，' 


1аре1ѕ=а) 


* 代 码 详 见 : 示例 程 


(3) 营业 税 预测 模型 


利用 Adaptive-Lasso 方 法 进行 营业 税 影响 因素 的 变量 选择 ， 通 过 表 13-11 可 以 看 出 ， 


业 企业 亏损 面 (x6) 和 建筑 业 企业 利润 总 额 (х8) 这 四 个 因素 进入 选择 ， 其 他 因素 的 系数 为 0。 


х1 
0. 000 00 
x6 
— 0. 185 23 


Adaptive-Lasso 变 


序 /code/yuce2.R 


pch=16，xlab=' 年 份 ' 
, буре='р', pch=4) 


‚ уїар= АЮ / 万 元 '，xXaxt="n" 


增值 税 真 实 值 ') , pch=c (16, 4) , col=c ('red', 'blue') ) 


全 社会 固定 资产 投资 额 (x3) 、 城 市 商品 零售 价格 指数 (1978 年 为 基准 100) (х4) 、 规 模 以 上 国有 及 国有 控股 工 


表 13-11 АЖЖ 


Ce | x T < T = 
_0. 000 00 0. 141 97 0. 000 00 


0. 000 00 — 0. 141 07 


量 选 择 如 代码 清单 13-9 所 示 。 


代码 清单 13-9 Adaptive-Lasso 变 量 选 择 


井 # 设 置 工作 空间 


# 把 “数据 及 程序 ”文件 夹 复制 到 F 盘 下 ， 再 用 setwd 设 置 工作 空间 
setwd ("Е: /数据 及 程序 /chapter13/ 示 例 程序 ") 


# 读 入 数据 


Data=read.csv ("./data/data3.csv", header=T) 


# 加 载 adqapt-1asso 源 代码 
source ("./code/l 
out3<-lasso.adapt 


asso.adapt. 
.ріс2 (х= 


#adapt-lasso 输 出 结果 名 称 


ШЕ (out 


t3) 
量 选择 输出 结果 序号 


— ind 
MAE W 145 J: 3 


round (out3$coef 


下 


# 保 存 adapt-lasso 模 型 


save (out3, file="./tmp/out3.R 
* 代 码 详 见 : 示例 程 


对 Adaptive-Lasso 变 量 选 择 方法 识别 的 影响 营业 税 的 因素 建立 神经 网 络 预测 模型 ， 其 参数 设置 为 误差 精度 10-/， 学 习 次 数 10000 次 ， 
建立 灰色 预测 模型 得 出 ， 后 验 差 比值 、 预 测 精度 等 级 如 表 13-12 所 示 ， 灰 色 预 测 模型 有 很 好 的 效果 。 


标的 2014 年 及 2015 年 数值 通 


代码 清单 13-10 


井 # 设 置 工作 空间 


过 R 语 


== z 
SAE 


营业 税 灰 色 预 测 


Data") 


bic2.txt") 
Data [, 1: 10] , y=DataSy) 


序 /code/adaptive-lasso3.R 


表 13-12 


灰色 预测 模型 营业 税 相关 因素 精度 表 


О. 000 00 О. 000 00 


个 数 为 Lasso 变 量 选 择 方法 选择 的 变量 个 数 3。 变 量 选择 的 指 


3 E a E х8 
О. 1153 О. 0179 0. 1566 О. 0719 
好 


营业 税 灰色 预测 如 代码 清单 13-10 所 示 。 


# 把 “数据 及 程序 ”文件 夹 复 制 到 FF 盘 下 ， 再 用 setwd 设 置 工作 空间 
setwd ("F: /数据 及 程序 /chapter13/ 示 例 程序 ") 


# 读 入 数据 


Data=read.csv ("./data/data3.csv", header=T) 


# 加 载 GEM (1, 1) Ж 


文件 


source ("./code/gmll .txt") 


gmll (x3/10000, 
gml1 (х4/10000, 
gm11 (х6/10000, 
gmll (x8/10000, 


* 代 码 详 见 : 示例 程 


代入 营业 税 所 建立 的 神经 网 络 预测 模型 


lengt 
lengt 


lengt 
lengt 


th (х3/1 
th (х4/1 


h (x6/1 
h (х8/1 


序 /code/huise3.R 


10000) + 
10000) + 
0000) + 
0000) + 


表 13-13 


营业 税 及 其 相关 因素 历史 数据 和 预测 表 


， 得 到 营业 税 的 2015 年 预测 值 为 2219277 万 元 ， 相 关 数 据 如 表 13-13 所 示 ， 其 中 加 粗 字 体 的 数据 为 预测 数据 。 图 13-4 为 神经 网 络 营业 税 真实 值 与 预测 值 对 比 图 。 


FA TAE 


* 数 据 详 见 : 示例 程序 /data/sales_tax.csv 


° TY УЖЕ ТИШН. 


= |* 营业 税 真实 值 
R 2 
R p 
B T 
` a 
ug 
š 


1999 2001 2003 2005 2007 2009 2011 2013 2015 
年 份 


图 13-4 营业税 真实 值 与 预测 值 对 比 图 
营业 税 神经 网 络 预 测 模型 如 代码 清单 13-11 所 示 。 
代码 清单 13-11 营业税 神 经 网 络 预测 模型 


HHR Жол} Z ja] 

library (nnet) 

setwd ("F: /数据 及 程序 /chapter13/ 示 例 程序 ") 

# 读 入 数据 

Data=read.csv ("./data/sales tax.csv", header=F) 

asData=scale (Data 

colnames (asData) <- с ("х3", "х4", "хб", "х8", "у") ##7]7] 2 

пп<-ппеё (y~., asData [1: 15, |, size=6, Песау=0.00001, тахії=2000, linout=T, trace=T) 
ргеаісі<-ргеаісі (пп, аѕраёа [, 1: 4] , ёуре="гам" 

ргеаісі=ргеаісі*ѕа (Data [1: 15, 5] ) +mean (Data [1: 15, 5] ) 

а=1999; 2015 

# Hh ДЈ ИА. ЯЗМА 84 

plot (predict, col='red', type='b', pch=16，xlab=' 年 份 '"，ylab=' 营 业 税 / 万 元 '，xaxt="n") 
points (Data [1: 15, 5] , col='blue', type='b', pch=4 

legend ('topleft', с (' 营 业 税 预测 值 '，' 营 业 税 真实 值 ') , pch=c (16, 4) ‚ col=c ('red', 'blue') ) 
axis (1, at=1: 17, labels=a) 


* 代 码 详 见 : 示例 程序 /code/yuce3.R 
(4) 企业 所 得 税 预测 模型 


利用 Adaptive-Lasso 方 法 进行 企业 所 得 税 影响 因素 的 变量 选择 ， 通 过 表 13-14 可 以 看 出 ， 规 模 以 上 工业 企业 盈亏 相抵 后 的 利润 总 额 x5 和 建筑 业 企业 利润 总 额 Xx8 这 两 个 因素 的 系数 为 0。 因 为 建筑 业 企业 利 
润 总 额 与 建筑 业 总 产值 存在 线性 关系 ， 所 以 该 变量 被 剔除 。 第 二 产业 增加 值 (х1) 、 第 三 产业 增加 值 (x2) 、 全 社会 固定 资产 投资 额 (x3) 、 城 市 商品 零售 价格 指数 (1978 年 为 基准 100) (х4) 、 规 模 以 
上 国有 及 国有 控股 工业 企业 亏损 面 (x6) 、 建 筑 业 总 产值 (x7) 、 限 额 以 上 连锁 店 (公司 ) 零售 额 (x9) 、 地 方 财政 总 收入 (x10) 8 个 变量 被 选 入 影响 企业 所 得 税 (у) 的 因素 中 。 


表 13-14 АЖЖ 


Adaptive-Lasso 变 量 选择 如 代码 清单 13-12 所 示 。 


代码 清单 13-12 Adaptive-Lasso 变 量 选择 


## 设 置 工作 空间 

# 把 “数据 及 程序 ”文件 夹 复制 到 F 盘 下 ， 再 用 setwd 设 置 工作 空间 
setwd ("F: /数据 及 程序 /chapter13/ 示 例 程序 ") 

# 读 入 数据 

Data=read.csv ("./data/data4.csv", header=T) 

# 加 载 adapt-lasso 源 代码 

source (". /сойе/1аѕзо.айарі.ріс2.іхі") 
out4<-lasso.adapt.bic2 (x=Data [, 1: 10] , y=Data$y) 
#adapt-lasso 输 出 结果 名 称 

names (out4) 

# 变 量 选 择 输出 结果 序号 

out4Sx.ind 

HRB 245 ` Ж 

round (out4$coeff, 5) 

# 保 存 adapt-lasso 模 型 

save (out4, file="./tmp/out4.RData") 


* 代 码 详 见 : 示例 程序 /code/adaptive-lasso4.R 


ZTE уж 


对 Adaptive-Lasso 变 量 选 择 方法 识别 的 影响 企业 所 得 税 的 因素 建立 神经 网 络 预测 模型 ， 其 参数 设置 为 误差 精度 10-/， 学 习 次 数 10000 次 ， 神 经 元 个 数 为 Lasso 变 量 选 择 方法 选择 的 变量 1 


的 指标 的 2014 年 及 2015 年 数值 通过 R 语 言 建立 灰色 预测 模型 得 出 ， 后 验 差 比值 、 预 测 精度 等 级 如 表 13-15 所 示 ， 灰 色 预 测 模型 有 很 好 的 效果 。 


表 13-15 灰色 预测 模型 企业 所 得 税 相关 因 素 精 度 表 


企业 所 得 税 灰色 预测 如 代码 清单 13-13 所 示 。 


代码 清单 13-13 ”企业 所 得 税 灰 色 预 测 


## 设 置 工作 空间 

# 把 “数据 及 程序 ”文件 夹 复制 到 F 盘 下 ， 再 用 setwd 设 置 工作 空间 
setwd ("F: /数据 及 程序 /chapter13/ 示 例 程序 ") 

# 读 入 数据 

Data=read.csv ("./data/data4.csv", header=T) 


# 加 载 GM (1, 1) 源 文件 


source ("./code/gmll .txt") 

gmll (х1/10000, length (х1/10000) +2) 
от11 (х2/10000, length (х2/10000) +2) 
от11 (х3/10000, length (х3/10000) +2) 
от11 (х4/10000, length (х4/10000) +2) 
от11 (х6, length (x6) +2) 

от11 (х7/10000, length (х7/10000) +2) 
от11 (х9/10000, length (х9/10000) +2) 
gmll (х10/10000, length (х10/10000) +2) 


* 代 码 详 见 : 示例 程序 /code/huise4.R 
代入 企业 所 得 税 所 建立 的 神经 网 络 预测 模型 ， 
测 值 对 比 图 。 


表 13-16 企业 所 得 税 及 其 相关 因素 历史 数据 和 预测 表 


T 


得 到 企业 所 得 税 的 2015 年 预测 值 为 1231302 万 元 ， 相 关 数据 如 表 13-16 所 示 ， 其 中 加 粗 字体 的 数据 为 预测 数据 。 图 13-5 为 神经 网 络 企业 所 得 税 真 实 值 与 预 


у/ Лл 
236 416 
268 360 
326 556 
373 397 
455 820 
596 693 
756 412 


数 8。 变 量 选择 


(2È) 
FA ZE: 


* 数 据 详 见 : 示例 程序 /data/entetptise_income:csv 


800 000 


企业 所 得 税 /万 元 


200 000 


2002 2004 2006 2008 2010 2012 2014 
年 份 


图 13-5 ”企业 所 得 税 真实 值 与 预测 值 对 比 图 


企业 所 得 税 神经 网 络 预测 模型 如 代码 清单 13-14 所 示 。 


代码 清单 13-14 ”企业 所 得 税 神 经 网 络 预测 模型 


## 设 置 工作 空间 

library (nnet) 

setwd ("Е: /数据 及 程序 /chapter13/ 示 例 程序 ") 

# 读 入 数据 

Data=read.csv ("./data/enterprise income.csv", header=F) 

asData=scale (Data) 

colnames (asData) <- с 1": "a "х3", "х4", "хб : "71, "хб". "х10", wit) # 每 列 列 名 
nn<-nnet (y~., asData [1: 12, |, size=6, decay=0.00001, тахії=2000, linout=T, trace=T) 
predict<-predict (пп, asData [, 1: 8] , type="raw") 

predict=predict*sd (Data [1: 12, 9] ) +mean (Data [1: 12, 9] ) 

a=2002: 2015 

# Hh ДЈ ИА. ARA 

plot (predict, col='red', type='b', pch=16，xlab=' 年 份 '"，ylab=' 企 业 所 得 税 / 万 元 '，xaxt="n") 
points (Data [1: 12, 9] , col='blue', type='b', pch=4 

legend ('topleft',，c(' 企 业 所 得 税 预测 值 '，' 企 业 所 得 税 真实 值 ') ，Pch=c (16, 4) , со1=с ('red', 


'blue') ) 
axis (1, at=1: 14, labels=a) 


* 代 码 详 见 : 示例 程序 /code/yuce4.R 
(5) 个 人 所 得 税 预测 模型 


利用 Adaptive-Lasso 方 法 进行 个 人 所 得 税 (у) 影响 因素 的 变量 选择 ， 通 过 表 13-17 可 以 看 出 ， 城 市 居民 年 人 均 可 支配 收入 (х1) 、 地 区 生产 总 值 (х4) 、 第 二 产业 增加 值 (x5) 和 地 方 财政 收入 (х7) 
这 四 个 因素 进入 选择 ， 其 他 因素 的 系数 为 0。 


表 13-17 系数 表 


16. 983 45 0.000 00 0.000 00 _0. 01035 0. 000 00 0. 024 17 


Adaptive-Lasso 变 量 选择 如 代码 清单 13-15 所 示 。 


代码 清单 13-15 ”Adaptive-Lasso 变 量 选择 


## 设 置 工作 空间 

# 把 “数据 及 程序 ”文件 夹 复制 到 F 盘 下 ， 再 用 setwd 设 置 工作 空间 
setwd ("Е: /数据 及 程序 /chapter13/ 示 例 程序 ") 

# 读 入 数据 

Data=read.csv ("./data/data5.csv", header=T) 

# 加 载 adapt-lasso 源 代码 

source ("./code/lasso.adapt .bic2.txt") 
out5<-lasso.adapt.bic2 (x=Data [, 1: 7] , y=Data$y) 
#adapt-lasso 输 出 结果 名 称 


names (out5) 

ИЛ ERES 

ооі5$х.іп 

HRB 245 ` 2k 

round (out5$coeff, 5) 

# 保 存 adapt-lasso 模 型 

save (out5, file="./tmp/out5.RData") 


* 代 码 详 见 : 示例 程序 /code/adaptive-lasso5.R 


对 Adaptive-Lasso 变 量 选 择 方法 识别 的 影响 个 人 所 得 税 的 因素 建立 神经 网 络 预测 模型 ， 其 参数 设置 为 误差 精度 10-/， 学 习 次 数 10000 次 ， 神 经 元 个 数 为 Lasso 变 量 选 择 方法 选择 的 变量 个 数 4。 变 量 选择 
的 指标 的 2014 年 及 2015 年 数值 通过 R 语 言 建立 灰色 预测 模型 得 出 ， 后 验 差 比值 、 预 测 精 度 等 级 如 表 13-18 所 示 ， 灰 色 预 测 模型 有 很 好 的 效果 。 


表 13-18 灰色 预测 模型 个 人 所 得 税 相 关 因 素 精 度 表 


个 人 所 得 税 灰色 预测 如 代码 清单 13-16 所 示 。 
代码 清单 13-16 个 人 所 得 税 灰 色 预 测 


HHR Жол} Z ja] 
# 把 “数据 及 程序 ”文件 夹 复制 到 F 盘 下 ， 再 用 setwd 设 置 工作 空间 
setwd ("F: /数据 及 程序 /chapter13/ 示 例 程序 ") 

# 读 入 数据 
Data=read.csv ("./data/data3.csv", header=T) 
# 加 载 GM (1, 1) 源 文件 

source ("./code/gm11.txt") 

от11 (х1, length (х1) +2) 

gmll (x4/10000, length (х4/10000) +2) 
от11 (x5/10000, len 

от11 (x7/10000, len 


th (x5/10000) +2) 
th (х7/10000) +2) 


gi 
gi 


* 代 码 详 见 : 示例 程序 /code/huise5.R 


代入 个 人 所 得 税 所 建立 的 神经 网 络 预测 模型 ， 得 到 个 人 所 得 税 的 2015 年 预测 值 为 400352 万 元 ， 相 关 数 据 如 表 13-19 所 示 ， 其 中 加 粗 字 体 的 数据 为 预测 数据 。 图 13-6 为 神经 网 络 个 人 所 得 税 真实 值 与 预测 
值 对 比 图 。 


表 13-19 个 人 所 得 税 及 其 相关 因素 历史 数据 和 预测 表 


л 


* 数 据 详 见 : 示例 程序 /data/Personal_Income.csv 


` 个 人 所 得 税 预 测 值 
x 小 人 所 得 税 真 实 但 


个 人 所 得 税 /万 元 


1999 2001 2003 2005 2007 2009 2011 2013 2015 
Ый 


图 13-6 ”个 人 所 得 税 真实 值 与 预测 值 对 比 图 
个 人 所 得 税 神经 网 络 预测 模型 如 代码 清单 13-17 所 示 。 


代码 清单 13-17 个 人 所 得 税 神经 网 络 预测 模型 


## 设 置 工作 空间 

library (nnet) 

setwd ("F: /数据 及 程序 /chapter13/ 示 例 程 序 ") 

# 读 入 数据 

Data=read.csv ("./data/Personal Income.csv", Һеайег=Е) 

asData=scale (Data) 

colnames (asData) <- с ("х1", "х4", "х5", "х7", "у") # 每 列 列 名 

nn<-nnet (y~., asData [1: 15, |, size=6, decay=0.00001, maxit=2000, linout=T, trace=T) 
predict<-predict (пп, asData [, 1: 4] , type="raw") 

predict=predict*sd (Data [1: 15, 5] ) +mean (Data [1: 15, 5] ) 

a=1999: 2015 

# 画 出 序列 预测 值 、 真 实 值 图 像 

plot (predict,，col='red'，type='b'，pch=16，xlab=' 年 份 '"，ylab=' 个 人 所 得 税 / 万 元 '， 
хахі="п") 

points (Data [1: 15, 5] , col='blue', type='b', pch=4) 

legend ('topleft', с (' 个 人 所 得 税 预 测 值 '，' 个 人 所 得 税 真实 值 ') , pch=c (16, 4) , со1=с ('red', 


'blue') ) 
axis (1, at=1: 17, labels=a) 


* 代 码 详 见 : 示例 程序 /code/yuce5.R 


(6) 政府 性 基金 收入 预测 模型 


相 比 于 2006 年 及 以 往年 份 ，2007 年 的 广州 土地 出 让 金 大 幅 上 涨 ， 而 土地 出 让 金 收入 的 大 幅 上 涨 直接 影响 了 政府 性 基金 收入 。 所 以 为 了 数据 的 连续 性 ， 本 书 利用 灰色 预测 法 对 2007~2013 年 的 政府 性 基 
金 收入 进行 预测 ， 灰 色 预 测 的 后 验 差 比值 为 0.3052， 小 于 0.35， 预 测 精度 为 好 。 


将 数值 代入 计算 ， 即 可 得 到 2014 年 政府 性 基金 收入 为 10595746 万 元 ，2015 年 政府 性 基金 收入 为 13366207 万 元 ， 预 测 对 比 图 如 图 13-7 所 示 。 


R _ _|-—е- 政府 性 基金 收入 预测 值 
R S [эе 政府 性 基金 收入 真实 什 
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<} 


政府 性 基 
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年 份 


图 13-7 灰色 预测 政府 性 基金 收入 真实 值 与 预测 值 对 比 图 


政府 性 基金 收入 灰色 预测 如 代码 清单 13-18 所 示 。 


代码 清单 13-18 ”政府 性 基金 收入 灰色 预测 


# 导 入 数据 

у=с (3152063, 2213050, 4050122, 5265142, 5556619, 4772843, 9463330) 
# 加 载 EM (1, 1) 源 文件 

source (". /code/om.txt") 

gm11 (y, length (у) +2) 


* 代 码 详 见 : 示例 程序 /code/huise6.R 


[1] Tibshirani R.Regression shrinkage and selection via the lasso [J] .J.Rovyal.Statist.Soc B., 58 (1) : 267-288. 
[2] Zou H.The Adaptive Lasso and its oracle properties [J] .Journal of the American Statistical Association, 2006, 101 (476) : 1418-1429. 
[3] Ж, PAA, 2 2. Ж T 32⁄24642 484 2 3 h W ВО X АГУ А И 6 = ла K ER (http://www.tipdm.org) 优秀 作品 。 


133 ”上 机 实验 


1. 实 验 目的 


· 掌握 Adaptive-Lasso 变 量 选择 和 神经 网 络 预 测 模型 。 


' 对 搜集 的 广州 市 地 方 财政 收入 以 及 各 类 别 收 入 数据 ， 分 析 识 别 影响 地 方 财政 收入 的 关键 特征 ， 数 据 见 “上 机 实验 /data/datal 一 qdata5.csv”。 使 用 Adaptive-Lasso 变 量 选择 方法 筛选 出 地 方 财政 收入 以 及 各 
类 别 收入 的 关键 影响 因素 。 


` 用 GM (1, 1) 灰色 预测 方法 得 到 簿 选 出 的 关键 影响 因素 的 2014 年 及 2015 年 的 预测 值 。 

. 代入 用 历史 数据 训练 的 神经 网 络 模型 ， 从 而 对 得 到 广州 市 地 方 财政 收入 以 及 各 类 别 收入 2014 年 及 2015 年 的 预测 值 。 

3. 实 验方 法 与 步骤 

Т) 把 经 过 预 处 理 的 “上 机 实验 /data/data1.csv” 数据 使 用 read.csv 函 数 读 入 当前 工作 空间 。 

2) 使 用 Adaptive-Lasso 函 数 “ 上 机 实验 /code/adaptive-lasso1.R” 对 预 处 理 的 数据 “data1 一 data5.csv” 进 行 变 量 选择 。 

3) 使 用 GM (1, 1) 灰色 预测 方法 “上 机 实验 /code/huise1.R” 得 到 筛选 出 的 关键 影响 因素 的 2014 年 及 2015 年 的 预测 值 。 

4) 使 用 神经 网 络 对 广州 市 地 方 财 政 收入 进行 预测 。 同 理 ， 可 把 文件 名 后 缀 2 到 4 的 数据 和 代码 执行 一 遍 ， 对 各 类 别 收 入 进行 预测 。 
4. 思 考 与 实验 总 结 

1) 尝试 其 他 的 变量 选择 方法 ? 


2) 尝试 采用 岭 回 归 方 法 进行 变量 选择 与 Lasso 做 比较 ， 尝 试 更 复杂 的 神经 网 络 模型 进行 预测 。 


134 ”拓展 思考 


由 于 电力 工业 与 一 般 的 其 他 产业 不 同 ， 其 产品 即 电能 无 法 大 量 储存 ， 电 力 的 生产 和 消费 必须 在 同一 瞬间 进行 ， 因 此 电力 负荷 预测 成 了 电力 系统 运行 调度 、 生 产 规划 、 电 力 市 场 竞 价 决策 的 重要 组 成 部 


分 。 做 好 电力 负荷 预测 管理 工作 可 以 有 效 降低 电网 公司 运行 成 本 和 提高 电力 设备 运行 效率 ， 其 预测 精度 不 仅 影 响 到 电网 安全 可 靠 供 电 ， 而 且 直 接 影响 到 电网 经 营 企业 的 生产 经 营 决策 及 经 营 效 益 。 随 着 电力 
改革 的 深化 、 电 力 市 场 的 开放 ， 进 一 步 提 高 短期 负荷 预测 管理 水 平 愈 显得 重要 和 巡 切 。 电 网 结构 示意 图 如 图 13-8 所 示 。 


内 部 发 电站 配 电网 络 输电 变电站 
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图 13-8 ”电网 结构 示意 图 


目前 ， 国 内 外 的 预测 应 用 软件 大 多 基于 特定 的 少数 几 种 模型 ， 而 选择 模型 单一 造成 的 后 果 是 : 预测 结果 往往 只 对 某 种 发 展 规律 有 效 ， 当 事物 发 展 规律 改变 时 ， 如 果 仍 然 采 用 原 有 的 单一 模型 ， 就 会 造成 
预测 结果 偏差 过 大 ， 从 而 失去 了 预测 的 实际 意义 。 尤 其 是 对 于 使 用 系统 的 各 个 供电 公司 ， 由 于 发 展 水 平 不 同 ， 用 电 结 构 不 同 ， 负 和 荷 特 性 差异 很 大 ， 特 定 的 某 种 预测 方法 将 很 难 在 各 地 都 发 挥 出 良好 的 效果 。 
另外 ， 在 电力 市 场 环境 下 ， 影 响 电 力 发 展 的 因素 非常 多 ， 包 括 经 济 发 展 、 能 源 消费 、 气 象 条 件 等 众多 影响 因素 ， 加 之 不 同系 统 间 数据 共享 性 差 ， 很 难 考虑 相关 因素 的 影响 等 ， 导 致 目 前 基于 用 电 的 电力 负荷 
预测 效果 不 其 理想 。 基 于 用 电 数 据 如 何 进行 有 效 的 电力 负荷 预测 ， 为 供电 部 门 进行 安全 监视 、 预 防 性 控制 和 紧急 状态 处 理 提供 依据 ? 
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本 章 结合 广州 市 地 方 财政 收入 以 及 各 类 别 收 入 分 析 和 预测 的 案例 ， 重 点 介绍 了 数据 挖掘 算法 中 Adaptive-Lasso 方 法 和 神经 网 络 算法 在 实际 案例 中 的 应 用 。 重 点 研究 影响 广州 市 地 方 财政 收入 的 关键 因 
素 ， 并 在 这 些 天 键 影响 因素 的 基础 上 采用 神经 网 络 算法 对 2015 年 各 类 别 收 入 进行 预测 ， 并 详细 地 摘 述 了 数据 挖掘 的 整个 过 程 ， 也 对 其 相应 的 算法 提供 了 R 语 言 上 机 实验 。 


第 14 章 ”基于 基站 定位 数据 的 商 圈 分 析 


141 ”背景 与 挖掘 目标 


随 着 当今 个 人 手机 终端 的 普及 ， 出 行 群体 中 手机 拥有 率 和 使 用 率 已 达到 相当 高 的 比例 ， 手 机 移动 网 络 也 基本 实现 了 城乡 空间 区 域 的 全 覆盖 。 根 据 手机 信号 在 真实 地 理 空间 上 的 覆盖 情况 ， 将 手机 用 户 时 
间 序 列 的 手机 定位 数据 ， 映 射 至 现实 的 地 理 空 间 位 置 ， 即 可 完整 、 客 观 地 还 原 出 手机 用 户 的 现实 活动 轨迹 ， 从 而 挖掘 得 到 人 口 空间 分 布 与 活动 联系 特征 信息 。 移 动 通信 网 络 的 信号 覆盖 从 逻辑 上 被 设计 成 由 
若干 六 边 形 的 基站 小 区 相互 邻接 而 构成 的 蜂窝 网 络 面 状 服 务 区 ， 如 图 14-1 所 示 ， 手 机 终端 总 是 与 其 中 某 一 个 基站 小 区 保持 联系 ， 移 动 通信 网 络 的 控制 中 心 会 定期 或 不 定期 地 主动 或 被 动 地 记录 每 个 手机 终端 
时 间 序 列 的 基站 小 区 编号 信息 。 


9141 菜市 移动 基站 分 布 图 


商 圈 是 现代 市 场 中 企业 市 场 活动 的 空间 ， 最 初 是 站 在 商品 和 服务 提供 者 的 产地 角度 提出 来 的 ， 后 来 逐渐 扩展 到 商 圈 同 时 也 是 商品 和 服务 享用 者 的 区 域 。 商 圈 划 分 的 目的 之 一 是 研究 潜在 顾客 的 分 布 以 制 
定 适宜 的 商业 对 策 。 


从 某 通信 运营 商 提 供 的 特定 接口 解析 得 到 用 户 的 定位 数据 ， 如 表 14-1 所 示 ， 定 位 数据 各 属性 如 表 14-2 所 示 。 定 位 数据 是 以 基站 小 区 进行 标识 ， 利 用 基站 小 区 的 覆盖 范围 作为 商 圈 区 域 的 划分 ， 那 如 何 对 
用 户 的 历史 定位 数据 进行 科学 的 分 析 ， 归 纳 出 商 圈 的 人 流 特征 和 规律 ， 识 别 出 不 同类 别 的 商 圈 ， 选 择 合适 的 区 域 进行 运营 商 的 促销 活动 ? 


表 14-1 菜市 某 区 域 的 定位 数据 示例 


а жаша оаш шша SRE BE 13 信 令 类 型 
2014 гарагаас ТЕ ШШ 281335167708768 333333СА 
шлык 1ш ши ши 
шшш C ш шш ши l 
ПЕШЕНЕ ЛЕН ЕЛШЕП иш шш шиг 
2014 mE 380420663155326 334149CA 
2014 чка ашшы EE E 897743952380637 s... 334053CA 
2014 or 113404095624425 334125CA 


表 14-2 ”定位 数据 属性 列表 
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1) 对 用 户 的 历史 定位 数据 ， 采 用 数据 挖掘 技术 ， 对 基站 进行 分 群 ; 


2) 对 不 同 的 商 圈 分 群 进行 特征 分 析 ， 比 较 不 同 商 圈 类 别 的 价值 ， 选 择 合适 的 区 域 进行 运营 商 的 促销 活动 。 
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商 圈 是 现代 市 场 中 企业 市 场 活动 的 空间 ， 最 初 是 站 在 商品 和 服务 提供 者 的 产地 角度 提出 来 的 ， 后 来 逐渐 扩展 到 商 圈 同时 也 是 商品 和 服务 享用 者 的 区 域 。 商 圈 划 分 的 目的 之 一 是 研究 潜在 顾客 的 分 布 以 制 
定 适宜 的 商业 对 策 。 


从 某 通 信 运 营 商 提供 的 特定 接口 解析 得 到 用 户 的 定位 数据 ， 如 表 14-1 所 示 ， 定 位 数据 各 属性 如 表 14-2 所 示 。 定 位 数据 是 以 基站 小 区 进行 标识 ， 利 用 基站 小 区 的 覆盖 范围 作为 商 圈 区 域 的 划分 ， 那 如 何 对 
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表 14-1 菜市 某 区 域 的 定位 数据 示例 


s [n]a [и [ж Ге Гев ияне ocas | awas | ass | 信人 
шн [1 [1 о а a| 3 | 3400952425 | зюп | эзе | азиз 


表 14-2 ”定位 数据 属性 列表 


所 = 数据 类 型 备注 
day E | mi 


一 一 


millisecond z FL 


generation 网 络 类 型 


基站 编号 


21026, 346536. 445340 

15 (УН 

基站 р, 15 位 字符 串 

需要 关联 用 户 表 取 用 户 号 码 〈( 用 户 号 但 需要 
关联 用 户 表 得 到 用 户 ID) 


string 小 于 15 个 字符 


о | — | CA уыл | + р |ы 
ы = - 
„= = K = 
= 
= 
т 
I 
= 
=! 


се id 


— 
о 
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本 次 数据 挖掘 建 模 目标 如 下 : 


11 emasl 


string 


1) 对 用 户 的 历史 定位 数据 ， 采 用 数据 挖掘 技术 ， 对 基站 进行 分 群 ; 


2) 对 不 同 的 商 圈 分 群 进行 特征 分 析 ， 比 较 不 同 商 圈 类 别 的 价值 ， 选 择 合适 的 区 域 进行 运营 商 的 促销 活动 。 


142 “分析 方法 与 过 程 


手机 用 户 在 使 用 短信 业务 、 通 话 业务 、 开 关机 、 正 常 位 置 更 新 、 周 期 位 置 更 新 和 切入 呼叫 的 时 候 均 产生 定位 数据 ， 定 位 数据 记录 手机 用 户 所 处 基站 的 编号 、 时 间 和 唯一 标识 用 户 的 EMASs|I 号 等 。 历 史 定 
位 数据 描绘 了 用 户 的 活动 模式 ， 一 个 基站 覆盖 的 区 域 可 等 价 于 商 圈 ， 通 过 归纳 经 过 基站 覆盖 范围 的 人 口 特征 ,识别 出 不 同类 别 的 基站 范围 ， 即 可 等 同 地 识别 出 不 同类 别 的 商 圈 。 衡 量 区 域 的 人 口 特征 可 从 人 
流量 和 人 均 停留 时 间 的 角度 进行 分 析 ， 所 以 在 归纳 基站 特征 时 可 针对 这 两 个 特点 进行 提取 。 


由 图 14-2 知 ， 基 于 移动 基站 定位 数据 的 商 圈 分 析 主 要 包括 以 下 步 又: 
1) 从 移动 通信 运营 商 提供 的 特定 接口 上 解析 、 处 理 ， 并 滤 除 用 户 属性 后 得 到 用 户 定 位 数据 ， 
2) 以 单个 用 户 为 例 ， 进 行 数据 探索 分 析 ， 研 究 在 不 同 基站 的 停留 时 间 ， 并 进一步 地 进行 预 处 理 ， 包 括 数据 规约 和 数据 变换 ， 


3) 利用 2) 形成 的 已 完成 数据 预 处 理 的 建 模 数 据 ， 基 于 基站 覆盖 范围 区 域 的 人 流 特 征 进 行商 圈 聚 类 ， 对 各 个 商 圈 分 群 进行 特征 分 析 ， 选 择 合适 的 区 域 进 行 运营 商 的 促销 活动 。 


业务 系统 ”> 数据 抽取 > 数据 探索 与 预 处 理 


[ў 


数据 规约 | т 模型 优化 


142 ”基于 基站 定位 数据 的 商 圈 分 析 流 程 


14.2.1 数据 抽取 


从 移动 通信 和 运 曹 商 提供 的 特定 接口 上 解析 、 处 理 ， 并 滤 除 用 户 属性 后 得 到 位 置 数据 ， 以 2014 年 1 月 1 日 为 开始 时 间 ，2014 年 6 月 30 日 为 结束 时 间作 为 分 析 的 观测 窗口 ， 抽 取 观 测 窗 口内 某 市 某 区 域 的 定位 
数据 形成 建 模 数 据 ， 部 分 数据 如 表 14-1 所 示 。 


14.2.2 ”数据 探索 分 析 


为 了 便于 观察 数据 ， 先 提取 EMASI 号 为 55555 的 用 户 在 2014 年 1 月 1 日 的 定位 数据 ， 如 表 14-3 所 示 ， 可 以 发 现 用 户 在 2014 年 1 月 1 日 00: 31: 48 处 于 36908 基 站 的 范围 ， 下 一 个 记录 是 用 户 在 2014 年 1 月 1 
日 00: 53: 46 处 于 36902 基 站 的 范围 ， 这 表明 了 用 户 从 00: 31: 48 到 00: 53: 46 都 是 处 于 36908 基 站 ， 共 停留 了 21 分 58 秒 ， 并 且 在 00: 53: 46 进 入 了 36902 基 站 的 范围 。 再 下 一 条 记录 是 用 户 在 2014 年 1 
月 1 日 01: 26: 11 处 于 36902 基 站 的 范围 ， 这 可 能 是 由 于 用 户 在 进行 通话 或 者 其 他 产生 定位 数据 记录 的 业务 ， 此 时 的 基站 编号 未 发 生 改 变 ， 用 户 依 旧 处 于 36902 基 站 的 范围 ， 若 要 计算 用 户 在 36902 基 站 范围 
亭 留 的 时 间 ， 则 需要 继续 判断 下 一 条 记录 ， 可 以 发 现 用 户 在 2014 年 1 月 1 日 02: 13: 46 处 于 36907 基 站 的 范围 ， 故 用 户 从 00: 53: 46 到 02: 13: 46 都 是 处 于 36902 基 站 ， 共 停留 了 80 分 。 停 留 示意 图 如 图 
14-3 所 示 。 


表 14-3 了 MASI 号 为 55555 的 用 户 在 2014 年 1 月 1 日 的 位 置 数据 


年 | 月 | 日 | 时 | 分 | 秒 | 毫秒 | 网 络 类 型 | Locas | 基站 编号 | EMASI 号 ве 
2014| 1 1 O 348 38 | 2 | 281335167708768 | 36908 | 55555 333333CA 
2014 | 1 | 1 O |53 46 96 | 2 | 962947809921085 | 36902 | 55555 333789СА 
2014 | 1 1 | 1|26|11| 23 | 2 | 262095068434776 | 369020 | 55555 | 333334CA 
2014| 1 1 2113146| 28 | 2 | 712890120478723 | 36907 | 55555 333551CA 


2 


j 


2014 55555 333796СА 
2014 | 1 | 1 |8 |20|32| 93 | 2 | 995208321887481 | 36903 | 55555 334109СА 


ЭЭЭ 
2014| 1 | 1 | 9 43 31 44] 2 | 555114267094822 | 36908 | 55555 333798СА 
2014 | 1 1 12 20 47 35 | 2 | 482996504023472 | 36907 | 55555 333393CA 
2014 1 1 1440 4 | 26 | 2 | 329606106134793 | 36903 | 55555 333587CA 
2014 | 1 | 1 [14 [so [32| 82 | 2 | 645164951070747 | 36908 | 55555 | 333731CA 
20141101115 19 2] 17 | 2 | 830855298094409 | 369020 55555 | 334068CA 
2014 | 1 | 1 [18 26 43 88 | 2 | 323108074844193 | 36900 | 55555 334023СА 
юа4|1]1|19]0)з]|) 2 _ 333952 СА 
2014 | 1 | 1 19 50 7] 9 | 2 | 987606797101505 | 36906 | 55555 334096CA 
2014 | 1 [1 122135 0| 4 | 2 | 756416566337609 | 36908 | 55555 | 333427СА 
2014 | ı | 1 |23 |287 | 98 | 2 | 919108833174494 | 36904 | 55555 333500СА 


2 


ы | 


Гы 


2 


2 


2 


Г 


2014 年 1 月 1 日 2014 年 1 月 1 日 2014 年 1 月 1 日 2014 年 1 月 1 日 2014 年 1 月 1 日 
00:31:48 00:53:46 01:26:11 02:13:46 07:57:18 
36908 ДЕЎ 36902 基 站 36902 基 站 36907 基 站 36902 基 站 
36908 基 站 36902 基 站 36907 基 站 
0421275809 停留 80 分 停留 343 分 32 种 
` | [ | 


图 14-3 ”停留 示意 图 


14.2.3 ”数据 预 处 理 


1. 数 据 规约 


原始 数据 的 属性 较 多 ， 但 网 络 类 型 、LOC 编 号 和 信 令 类 型 这 三 个 属性 对 于 挖掘 目标 没有 用 处 ， 故 剔除 这 三 个 元 余 的 属性 。 而 衡量 用 户 的 停留 时 间 ， 并 不 需要 精确 到 毫秒 级 ， 故 可 把 毫秒 这 一 属性 删除 。 


同时 在 计算 用 户 的 停留 时 间 时 ， 只 计算 两 条 记录 的 时 间 差 ， 为 了 减少 数据 维度 ， 把 年 、 月 和 日 合并 记 为 日 期 ， 时 、 分 和 秒 合并 记 为 时 间 ， 则 表 14-3 可 处 理 得 到 表 14-4。 


表 14-4 ”数据 规约 后 数据 


014 年 1 月 1 00:53:46 55555 
2014 年 ] H 1 H 09: 43: 31 55555 
2014 年 1 月 1 日 14: 50: 32 55555 
ot 1 H 1 E 23:28:07 55555 


2. 数 据 变 换 


挖 所 的 目标 是 寻找 出 高 价值 的 商 圈 ， 需 要 根据 用 户 的 定位 数据 提取 出 衡量 基站 覆盖 范围 区 域 的 人 流 特征 ， 如 人 均 停留 时 间 和 人 流量 等 ， 高 价值 的 商 圈 具有 人 流量 大 、 人 均 停留 时 间 长 的 特点 ， 但 是 在 写 
字 楼 工作 的 上 班 族 在 白天 所 处 的 基站 学 围 基本 固定 ， 停 留 时 间 也 相对 较 长 ， 同 时 晚上 的 住宅 区 的 居民 所 处 的 基站 范围 基本 固定 ， 停 留 时 间 也 相对 较 长 ， 仪 通过 停留 时 间作 为 人 流 特征 难以 区 分 高 价值 商 图 和 
写字 楼 与 住宅 区 ， 所 以 提取 出 来 的 人 流 特 征 必 须 能 较为 明显 地 区 别 这 些 基 站 范围 。 下 面 设计 工作 日 上 班 时 间 人 均 停留 时 间 、 凌 晨 人 均 停 留 时 间 、 周 末 人 均 停 留 时 间 和 日 均 人 流量 作为 基站 履 盖 范围 区 域 的 人 
流 特 征 。 


工作 日 上 班 时 间 人 均 停 留 时 间 是 所 有 用 户 在 工作 日 上 班 时 间 处 在 该 基站 范围 内 的 平均 时 间 ， 居 民 一 般 的 上 班 工作 时 间 是 在 9: 00~ 18: 00， 所 以 工作 日 上 班 时 间 人 均 停留 时 间 是 计算 所 有 用 户 在 工作 日 
9: 00~18: 00 处 在 该 基站 范围 内 的 平均 时 间 。 


凌晨 人 均 停留 时 间 是 指 所 有 用 户 在 00: 00~07: 00 处 在 该 基站 范围 内 的 平均 时 间 ， 一 般 居民 在 00: 00~07: 00 都 是 在 住处 休息 ， 利 用 这 个 指标 则 可 以 表征 出 住宅 区 基站 的 人 流 特 征 。 
周末 人 均 停留 时 间 是 指 所 有 用 户 周末 处 在 该 基站 范围 内 的 平均 时 间 ， 高 价值 商 圈 在 周末 的 竹 街 人 数 和 时 间 都 会 大 幅 增 加 ， 利 用 这 个 指标 则 可 以 表征 出 高 价值 商 圈 的 人 流 特 征 。 

日 均 人 流量 指 平均 每 天 曾经 在 该 基站 范围 内 的 人 数 ， 日 均 人 流量 大 说 明 经 过 该 基站 区 域 的 人 数 多 ， 利 用 这 个 指标 则 可 以 表征 出 高 价值 商 圈 的 人 流 特征 。 

这 四 个 指标 的 计算 直接 从 原始 数据 计算 比较 复杂 ， 需 先 处 理 成 中 间 过 程 数 据 ， 再 从 中 计算 出 这 四 个 指标 。 


中 间 过 程 数 据 的 计算 以 单个 用 户 在 一 天 里 的 定位 数据 为 基础 ， 计 算 在 各 个 基站 范围 下 的 工作 日 上 班 时 间 停 留 时 间 、 凌 晨 停 留 时 间 、 周 末 停 留 时 间 和 是 否 处 于 基站 范围 。 假 设 原始 数据 所 有 用 户 在 观测 窗 
口 期 间 (Ж) 曾经 经 过 的 基站 有 N 个 ， 用 户 有 M 个 ， 用 户 i 在 j 天 经 过 的 基站 有 num1、num2 和 num3， 则 用 户 i 在 天 在 num1 基 站 的 工作 日 上 班 时 间 停 留 时 间 为 weekday_num1ij， 在 num2 基 站 的 工作 日 上 
班 时 间 停 留 时 间 为 weekday_num2ij， 在 num3 基 站 的 工作 日 上 班 时 间 停留 时 间 为 weekday_num3ijj; 在 num1 基 站 的 凌晨 停留 时 间 为 night_num1ij， 在 num2 基 站 的 凌晨 停留 时 间 为 night num2ij， 在 num3 
基站 的 凌晨 停留 时 间 为 night num3ijj; 在 num1 基 站 的 周末 停留 时 间 为 weekend_num1ij， 在 num2 基 站 的 周末 停留 时 间 为 weekend_num2ij， 在 num3 基 站 的 周末 停留 时 间 为 weekend_num3ij; 在 num1 
基站 是 否 停留 为 stay_num1ij， 在 num2 基 站 是 否 停留 为 stay_num2jj， 在 num3 基 站 是 否 停留 为 stay_ num3ij， 其 中 stay_ num1i、stay_num2ij 和 stay_num3i 的 值 均 为 1， 对 于 未 停留 的 其 他 基站 ， 工 作 日 上 
班 时 间 停留 时 间 、 凌 晨 停留 时 间 、 周 末 停 留 时 间 和 是 否 处 于 基站 学 围 的 值 均 为 0。 

对 于 num1 基 站 ， 四 个 基站 覆盖 范围 区 域 的 人 流 特征 的 计算 公式 如 下 : 


ekd. Ji; 
:工作 日 上 班 时 间 人 均 停 留 时 间 : weekday, ain т. É > weekday — пит 


ЗА night 一 numl ， 
凌晨 人 均 停留 时 间 : поре, WAE 


weekend — n ml, 
- 周末 人 均 停留 时 间 : sasa, DB D > > ы 


1 ГА М 
=== stay 一 numl , 
е nl 


“日 均 人 流量 : staynum1™— 
对 于 其 他 基站 ， 计 算 公 式 一 致 。 
对 采集 到 的 数据 ， 按 基站 履 盖 范围 区 域 的 人 流 特征 进行 计算 ， 得 到 各 个 基站 的 样本 数据 ， 数 据 如 表 14-5 所 示 。 


表 14-5 样本 数据 


i Pe AHS ВА ВУ 8] HRAS H Ai 日 均 信 流量 


36904 95 457 468 1253 


36911 94 658 2352 


36181 с 533 086 


38015 96 538 636 960 


* 数 据 详 见 : 示例 程序 /data/business_circle.csv 


但 由 于 各 个 属性 之 间 的 差异 较 大 ， 为 了 消除 数量 级 数据 带 来 的 影响 ， 在 进行 聚 类 前 ， 需 要 进行 离 差 标准 化 处 理 ， 离 差 标准 化 处 理 的 Ri 语言 代码 如 代码 清单 14-1 所 示 ， 离 差 后 的 数据 文件 存储 在 当前 
standardized.csv 文 件 中 。 


代码 清单 14-1 ” 离 差 标准 化 


setwd ("F: /数据 及 程序 /chapter14/ 示 例 程序 ") 

Data=read.csv ("./data/business circle.csv",header=T,encoding='ut£-8') 
colnames (Data) =c ("попрег", "х1", "х2", "х3", "х4") 

attach (Data) 


у1= (х1-тіп (х1)) / (тах (х1) ) -min (x1)) 
у2= (х2-тіп (х2)) / (тах (х2)) -min (x2)) 
y3= (x3-min (x3) ) / (пах (х3) ) -min (x3) ) 
у4= (х4-т1п (х4)) / (тах (x4) ) -min (x4) ) 


standardized=data.frame (Data [,1],у1, у2,уЗ,у4) 
write.csv (standardized,"./tmp/standardizedData.csv",row.names=TRUE 


~ 一 


* 代 码 详 见 : 示例 程序 /code/standardization.R 


标准 化 后 的 样本 数据 如 表 14-6 所 示 。 


表 14-6 标准 化 后 样本 数据 


基站 编号 | ”工作 日 上 班 时 间 人 均 停留 时 间 | ”凌晨 人 均 停留 时 间 日 均 人 流量 


* 数 据 详 见 : 示例 程序 /data/standardized.csv 


14.24 ”模型 构建 


1. 构 建 商 圈 聚 类 模型 
数据 经 过 预 处 理 过 后 ， 形 成 建 模 数据 。 采 用 层次 聚 类 算法 对 建 模 数据 进行 基于 基站 数据 的 商 圈 聚 类 ， 画 出 谱系 聚 类 图 ，R 语 言 代码 如 代码 清单 14-2 所 示 ， 输 入 数据 集 为 离 差 标准 化 后 的 数据 。 
代码 清单 14-2 ”谱系 聚 类 图 


setwd ("F: /数据 及 程序 /chapter14/ 示 例 程序 ") 
Data=read.csv ("./data/standardized.csv",header=F) 
#colnames (Data) =c ("х1", "х2", "х3", "х4") 

attach (Data) 

dist=dist (Раба, теіћоа='еос1іаеап') 
Phcl<-hclust(dqist "мага. р2") 

plot (nc1,hang=-1) 


* 代 码 详 见 : 示例 程序 /code/hieratchical _clusteting ріс 


根据 代码 清单 14-2， 可 以 得 到 的 谱系 聚 类 图 如 图 14-4 所 示 。 


Height 


dist 
hclust (*, "ward.D2") 


图 14-4 谱系 聚 类 图 


从 图 14-4 可 以 看 出 ， 可 把 聚 类 类 别 数 取 3 类 ， 则 R 语 言 代码 中 取 聚 类 类 别 数 为 k=3， 输 出 结果 typeindex 为 每 个 样本 对 应 的 类 别 号 。 
层次 聚 类 算法 如 代码 清单 14-3 所 示 。 
代码 清单 14-3 ”层次 聚 类 算法 


setwd ("F: /数据 及 程序 /chapter14/ 示 例 程序 ") 

library (ggplot2) 

Data=read.csv ("./data/standardized.csv", header=F) 
attach (Data) 

dist=dist (Data, method='euclidean') 

hcl<-hclust (dist, "ward.D2") 

plot (hc1) 


rel<-rect.hclust (hcl, k=3) 


matrix=Data [а, | 

d<-dim (matrix) 

y<-as.numeric (t (matrix) ) 

row<-factor (гер (1: d [1] , each=d [2] ) ) 
х<-гер (1: d [2] , times=d [1] ) 
data<-data. frame (y=y, х=х, row=row) 


ggplot (data=data, aes (x=x, y=y, group=row) ) +geom line () +scale x continuous (breaks=c (1, 2, 3, 4) , labels=c (" 工 作 日 人 均 停留 时 间 "， "凌晨 人 均 停 留 时 间 "， "周末 人 均 停 留 时 间 ",，" 日 均 人 
# 商 圈 类 别 2 


matrix=Data |b, | 

d<-dim (matrix) 

y<-as.numeric (і (matrix) ) 

row<-factor (тер (1: d [1] , еасһ=а [2] ) ) 
х<-гер (1: а [2] , times=d [1] ) 


data<-data.frame (y=y, х=х, row=row) ggplot (data=data, aes (х=х, y=y, group=row) ) +geom line () +scale x continuous (breaks=c (1, 2, 3, 4) , labels=c ("工作 日 人 均 停 留 时 间 "， "凌晨 人 . 
# 商 圈 类 别 3 Иш 
matrix=Data [с, | 


d<-dim (matrix) 

y<-as.numeric (і (matrix) ) 

row<-factor (rep (1: d [1] , each=d [2] ) ) 

х<-гер (1: d [2] , times=d [1] ) 

data<-data. frame (y=y, х=х, row=row) 

ggplot (data=data, aes (x=x, y=y, group=row) ) +geom line () +scale x continuous (breaks=c (1, 2, 3, 4) , labels=c (" 工 作 日 人 均 停留 时 间 "， "凌晨 人 均 停 留 时 间 "， "周末 人 均 停 留 时 间 "，" 上 日 均 人 


# 代 码 详 见 : 示例 程序 /code/hierarchical_clustering.R 
2. 模 型 分 析 


针对 聚 类 结果 按 不 同类 别 画 出 4 个 特征 的 折线 图 ， 如 图 14-5~ 图 14-7 所 示 。 对 于 商 圈 类 别 1， 这 部 分 基站 覆盖 范围 的 工作 日 人 均 停留 时 间 较 长 ， 同 时 凌晨 人 均 停留 时 间 、 周 末 人 均 停 留 时 间 相 对 较 短 ， 该 
类 别 基 站 覆盖 的 区 域 类 似 于 白领 上 班 族 的 工作 区 域 。 对 于 商 圈 类 别 2， 日 均 人 流量 较 大 ， 同 时 工作 日 人 均 停 留 时 间 、 凌 晨 人 均 停 留 时 间 和 周末 人 均 停留 时 间 相 对 较 短 ， 该 类 别 基 站 履 盖 的 区 域 类 似 于 商业 区 。 
对 于 商 圈 类 别 3， 凌 晨 人 均 停留 时 间 和 周末 人 均 停留 时 间 相 对 较 长 ， 而 工作 日 人 均 停 留 时 间 较 短 ， 日 均 人 流量 较 少 ,该 类 别 基站 覆盖 的 区 域 类 似 于 住宅 区 。 
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图 14-5” 商 圈 类 别 1 折线 图 
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9147 商 圈 类 别 3 折 线 图 


工作 日 人 均 停 留 时 间 读 晨 人 均 停 留 时 


商 圈 类 别 3 的 人 流量 较 少 ， 商 圈 类 别 1 的 人 流量 一 般 ， 而 且 白 领 上 班 族 的 工作 区 域 一 般 的 人 员 流 动 集中 在 上 下 班 时 间 和 午间 吃饭 时 间 ， 这 两 类 商 圈 均 不 利于 运营 商 的 促销 活动 的 开展 ， 商 圈 类 别 2 的 人 流 
量 大 ， 在 这 样 的 商业 区 有 利于 进行 运营 商 的 促销 活动 。 


143 ”上 机 实验 


1. 实 验 目的 


- 掌握 离 差 标准 化 做 数据 预 处 理 和 层次 聚 类 算法 。 


. 对 采集 到 的 数据 ， 按 基站 窗 盖 范围 区 域 的 人 流 特征 进行 计算 ， 得 到 各 个 基站 的 样本 数据 ， 处 理 好 的 数据 见 “ 上 机 实验 /data/business_circle.csv”， 需 要 对 各 个 基站 进行 商 圈 聚 类 。 但 为 了 避免 单个 特征 
的 值 过 大 影响 聚 类 效果 ， 需 要 对 数据 先进 行 离 差 标准 化 ， 再 采用 层次 聚 类 实现 商 圈 聚 类 ， 并 分 析 聚 类 结果 。 


3. 实 验方 法 与 步骤 
1) 把 原始 数据 ， 即 表 14-5 的 数据 读 取 到 R 语 言 工作 空间 。 根 据 业 务 需 求 只 需 截取 后 面 4 列 的 数据 进行 标准 化 即 可 。 


2) 自 编 函数 对 原始 数据 进行 离 差 标准 化 。 


3) 构建 层次 聚 类 模型 。 使 用 hclust 函 数 构 建 谱系 聚 类 图 ，method 参 数 设 置 为 “ward'” ，metric 参 数 设 置 为 ‘euclidean  。 

4) 使 用 rect.hclust 函 数 对 构建 好 的 谱系 聚 类 图 进行 分 类 ， 通 过 Kk 人 参数 指定 需要 分 类 的 类 别 数 为 3。 

5) 使 用 plot 函 数 对 构建 的 谱系 聚 类 图 可 视 化 ， 即 画 出 其 谱系 聚 类 图 并 保存 ; 针对 每 个 群 组 使 用 ggplot 函 数 画 其 趋势 图 并 保存 ， 保 存 函 数 使 用 print 函 数 。 
4. 思 考 与 实验 总 结 

Т) 数据 标准 化 的 方法 有 哪些 ? 这 里 为 什么 使 用 离 差 标准 化 ? 


2) 构建 层次 聚 类 模型 时 ， 可 以 调节 哪些 参数 ， 对 模型 有 何 影响 ? 


144 ”拓展 思考 


轨迹 控 扬 可 以 定义 为 从 移动 定位 数据 中 提取 隐 合 的 、 人 们 预先 不 知道 的 ， 但 又 潜在 有 用 的 移动 轨迹 模式 的 过 程 。 轨 迹 挖掘 可 应 用 到 多 个 重要 领域 ， 如 社交 网 络 、 公 共 安 全 、 智 能 交通 管理 、 城 市 规划 与 
发 展 等 。 面 向 拼车 推荐 应 用 是 轨迹 挖掘 的 新 兴 研 究 主 题 。 拼 车 是 指 相同 路 线 的 人 乘坐 同一 辆 车 上 下 班 、 上 学 及 放学 回 家 、 节 假日 出 游 等 ， 车 费 由 乘客 平均 分 挫 。 拼 车 不 仅 能 节省 出 行 费用 ， 而 且 有 利于 绥 解 
城市 交通 。 现 在 大 部 分 拼车 网 站 的 普遍 做 法 仍然 是 通过 拼车 司机 在 拼车 服务 网 站 上 发 布 出 发 地 、 目 的 地 、 出 发 时 间 等 信息 ， 再 由 拼车 客户 在 网 站 上 输入 出 发 地 和 目的 地 来 搜索 符合 自己 情况 的 拼车 对 象 。 这 
在 很 大 程度 上 浪费 了 拼车 用 户 在 网 上 搜索 拼车 伙伴 的 时 间 ， 使 用 户 的 拼车 体验 变 差 。 而 面向 拼车 推荐 应 用 是 需要 先 对 用 户 的 定位 数据 进行 轨迹 挖掘 ， 发 现 用 户 的 轨迹 模式 集合 ， 再 根据 两 个 用 户 之 间 移 动 轨 
迹 模式 的 相似 性 ， 推 荐 合适 的 拼车 路 线 。 


145 小结 
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本 章 结合 基于 基站 定位 数据 的 商 圈 分 析 的 案例 ， 重 点 介绍 了 数据 挖掘 算法 中 层次 聚 类 算法 在 实际 案例 中 的 应 用 。 研 究 用 户 的 定位 数据 ， 总 结 出 人 流 特 征 ， 并 采用 层次 聚 类 算法 进行 商 多 
同类 别 的 商 圈 ， 最 后 选择 合适 的 区 域 进 行 运营 商 的 促销 活动 。 案 例 详 细 地 描述 了 数据 挖掘 的 整个 过 程 ， 也 对 其 相应 的 算法 提供 了 R 语 言 上 机 实验 。 


第 15 章 ” 电 商 产品 评论 数据 情感 分 析 


151 背景 与 挖掘 目标 


随 着 网 上 购物 在 中 国 越 来 越 流 行 ， 人 们 对 于 网 上 购物 的 需求 变 得 越 来 越 高 ， 这 给 京东 、 淘 宝 等 电 商 平台 带 来 了 很 大 的 发 展 机 遇 ， 但 是 与 此 同时 ， 这 种 需求 也 推动 了 更 多 电 商 平台 的 崛起 ， 引 发 了 激烈 的 
竞争 。 而 在 这 种 电 商 平台 激烈 竞争 的 大 背景 下 ， 除 了 提高 商品 质量 、 压 低 商 品 价格 外 ， 了 解 更 多 消费 者 的 心声 对 于 电 商 平台 来 说 也 变 得 越 来 越 有 必要 ， 其 中 非常 重要 的 方式 就 是 对 消费 者 的 文本 评论 数据 进 
行内 在 信息 的 数据 挖掘 分 析 。 而 得 到 的 这 些 信息 ， 也 会 有 利于 对 应 商品 的 生产 厂家 自身 竞争 力 的 提升 。 


本 章 对 京东 平台 上 的 热水器 评论 做 文本 挖掘 分 析 ， 本 次 数据 挖掘 建 模 目标 如 下 : 
1) 分 析 某 一 热水器 的 用 户 情感 倾向 。 
2) 从 评论 文本 中 挖掘 出 该 热水器 的 优点 与 不 足 。 


3) 提炼 不 同 品牌 热水器 的 卖点 。 


第 15 章 ” 电 商 产品 评论 数据 情感 分 析 


151 背景 与 挖掘 目 标 


随 着 网 上 购物 在 中 国 越 来 越 流 行 ， 人 们 对 于 网 上 购物 的 需求 变 得 越 来 越 高 ， 这 给 京东 、 淘 宝 等 电 商 平台 带 来 了 很 大 的 发 展 机 遇 ， 但 是 与 此 同时 ， 这 种 需求 也 推动 了 更 多 电 商 平台 的 崛起 ， 引 发 了 激烈 的 
竞争 。 而 在 这 种 电 商 平台 激烈 竞争 的 大 背景 下 ， 除 了 提高 商品 质量 、 压 低 商 品 价格 外 ， 了 解 更 多 消费 者 的 心声 对 于 电 商 平台 来 说 也 变 得 越 来 越 有 必要 ， 其 中 非常 重要 的 方式 就 是 对 消费 者 的 文本 评论 数据 进 
行内 在 信息 的 数据 挖掘 分 析 。 而 得 到 的 这 些 信息 ， 也 会 有 利于 对 应 商品 的 生产 厂家 自身 竞争 力 的 提升 。 


本 章 对 京东 平台 上 的 热水器 评论 做 文本 挖掘 分 析 ， 本 次 数据 挖掘 建 模 目标 如 下 : 
1) 分 析 某 一 热水器 的 用 户 情感 倾向 。 
2) 从 评论 文本 中 挖掘 出 该 热水器 的 优点 与 不 足 。 


3) 提炼 不 同 品牌 热水器 的 卖点 。 


152 分 析 万 法 与 过 程 


本 次 建 模 针 对 京东 商城 上 美的 品牌 型 号 热水器 消费 者 的 文本 评论 数据 ， 在 对 文本 进行 基本 的 机 器 预 处 理 、 中 文 分 词 、 停 用 词 过 滤 后 ， 通 过 建立 包括 栈 式 自 编码 深度 学 习 、 语 义 网 络 与 LDA 主 题 模型 等 
种 数据 挖掘 模型 ， 实 现 对 文本 评论 数据 的 倾向 性 判断 以 及 所 隐藏 信息 的 挖掘 并 分 析 ， 以 期 望 得 到 有 价值 的 内 在 内 容 。 


图 15-1 为 电 商 产品 评论 数据 情感 分 析 流程 ， 主 要 包括 以 下 步骤 [1]: 


1) АЛЕ Т А——/\Л\® ЖД RR Каа ТСЕ ЕКЕ; 
2) 对 获取 的 数据 进行 基本 的 处 理 操作 ， 包 括 数据 预 处 理 、 中 文 分 词 、 停 用 词 过 滤 等 操作 ; 
3) 文本 评论 数据 经 过 处 理 后 ， 运 用 多 种 手段 对 评论 数据 进行 多 方面 的 分 析 ; 


4) 从 对 应 结果 的 分 析 中 获取 文本 评论 数据 中 有 价值 的 内 容 。 


热水器 йн | | ;| 语义 网 络 分 析 |， | — 模型 优化 
1—83 与 重 构 


图 15-1 电 商 产品 评论 数据 情感 分 析 流 程 


15.21 评论 数据 采集 


要 分 析 电 商 平台 的 热水器 评论 数据 ， 需 要 先 对 评论 数据 进行 采集 ， 对 比 多 种 网 络 爬 虫 工具 后 ， 发 现 八 爪 鱼 采 集 器 属于 “ 易 用 型 ”， 它 主要 通过 模仿 用 户 的 网 页 操作 进行 数据 采集 ， 只 需 指定 数据 采集 逻 
辑 和 可 视 化 选择 采集 的 数据 ， 即 可 完成 采集 规则 的 制定 。 因 此 ， 在 案例 的 网 页 数据 抓 取 工 具 选 择 的 是 八 爪 鱼 采集 器 。 


首先 在 八 爪 鱼 采 集 器 中 新 建 任务 ， 设 置 打开 页 面 为 “http://list.jd.com/list.html?cat=737%2C794%2C1706&ev=998 28702%40&page=18JL=3 产品 类 型 电热 水 器 ”， 页 面 如 图 15-2 所 示 。 


INNESTO 


由 于 热水器 下 有 多 种 产品 ， 而 且 呈 分 页 显示 ， 所 以 抓 取 数 据 时 需要 制定 翻 页 循环 列表 ， 再 点 击 每 个 产品 ， 进 入 产品 的 详细 页 面 ， 如 图 15-3 所 示 。 


在 本 页 面 下 需要 抓 取 产品 的 名 称 、 价 格 和 评论 信息 。 评 论 信息 在 产品 详细 页 面 的 下 方 ， 如 图 15-4 所 示 ， 这 里 需要 采集 的 有 用 户 评论 、 评 论 时 间 、 购 买 信息 和 用 户 名 。 同 时 ， 由 于 评论 是 多 页 显示 ， 也 需 
要 制定 翻 页 循环 列表 ， 循 环 抓 取 每 页 评论 信息 。 


经 过 以 上 分 析 ， 可 在 八 爪 鱼 采集 器 设计 出 以 下 流程 ， 如 图 15-5 所 示 ， 进 行 单机 采集 后 得 到 结果 截图 如 图 15-6 所 示 。 
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图 15-5 
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815-6 ”评论 采集 结 
对 采集 到 的 评论 数据 进行 处 理 ， 得 到 原始 文本 的 评论 数据 如 表 15-1 所 示 。 
表 15-1 原始 评论 文本 


В б ТЕЕ | F Е Н 1 | К 
"Ре DEZE mlg 了 本 评论 | 时 间 т ~ Рағег1" 
FALSE “京东 美的 京东 商城 信得过 ， 买 的 砍 心 ， 用 的 2014-11-: 美 的 (Midehttp://s. 
FALSE “京东 给 公司 宿 完 买 的 ， 上 门 安装 很 快 ，2014-11-1 美 的 (Midehttp://s,c 
FALSE “京东 ‚а: ИЕ tat, жалча 2014-09-03 J(Widehttp://s. 
FALSE ША 不 错 不 错 的 哦 ， 第 一 上 次 在 京东 买 这 2014-11-1 美 的 (idehttpi /7s， 
FALSE “京东 很 满意 ,水 方 一 晚上 都 还 是 热 的 早 2014-11- 1 美的 Griddhttp， /71s， 
FALSE “京东 自己 动手 安装 的 ; 买 材料 改 了 不 到 |2014-~11-~2 美 的 OTMidehttp://s.e 
FALSE “京东 ЛеЊНЯБ— А Ях. 2014-09-72 3 (її dehttp: //s. 
FALSE ШЖ 还 不 错 ， 就 是 快递 有 点 慢 ， 不 打 电 2014-12-t 美 的 (Widehttp://s. 
FALSE “京东 东西 很 不 错 ХУ А) A*i E 2014-11-136) Midehttp://s.c 
FALSE ЫАЛ Enke! 下 次 还 会 光顾 的 ! 2014-11-1 美 的 lidehttp; sc 
FALSE MA BARLE, S RELA 2014-12—С Ж (Иїїдеһтїїр: //в. 
FALSE HA 还 好 吧 2014-12-( = (їїдеһїїр: //в. 
FALSE “京东 应 该 值得 信任 的 品牌 。。。。。。 2014-12-(3EÑJO(Nidehttp:i//s, с 
FALSE 京东 HEREA., BHA ERE 2014-11-23 (їїдеһтїїр: //5. с 
FALSE “京东 很 好 很 好 很 好 很 好 很 好 很 好 很 好 很 2014-12-t 美 的 (Midehttp://s.c 
FALSE “京东 ШШ(Ш1аеа) F40-1541 40 升 电 执 ?2014-11-2 美 的 (Midehttp'//s. 
FALSE “京东 必 同 事 买 的 他 说 未 错 ， ARR! 2014-11-23 h] Midehttp://s. 
FALSE “京东 用 了 一 上段 时 间 了 ,好 用 , 没什么 问 2014-09-: 美 的 Widehttp://s， 
FALSE EA EARI, WARP, SRA, 2014-11-: 美 的 (idehttp: As， 
ТЕПЕ FALSE “京东 яя, RAE! 第 二 次 购买 了 &h 2014-12-730 деһ++р://=. 
TRUE FALSE “| 京东 125/0), 就 定 方便 而 已 |2014-11- (Ж Пйїдеһїїр: fis. 
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* 数 据 详 见 : 01- 示 例 数据 /汇总 京东 .xlsx 
再 将 品牌 为 “美的 ”的 “评论 ”一 列 抽取 ， 另 存 为 \ data N meidi jd.txt， 编 码 为 UTF-8。 评 论 抽取 的 代码 如 代码 清单 15-1 所 示 。 


代码 清单 15-1 评论 抽取 代码 


setwd ("Е: /数据 及 程序 /chapter15/ 示 例 程序 ") 
Data=read.csv ("./data/huizong.csv", header=T, encoding='UTF-8') 
colnames (Data) =@ ("х1", "х2м, "х3", "Ат. "х5", "хб", "жт": "х8", 
іпаех=ућісһ (DataSx5==" 美 的 ") 

meidi jd=Data [index, 6] 

write.table (meidi jd, "./tmp/meidi jd.txt" 


"х9") 


‚ row.names=FALSE) 


* 代 码 详 见 : 示例 程序 /code/excel2txt.R 


15.22 ”评论 预 处 理 


取 到 文本 后 ， 首 先 要 进行 文本 评论 数据 的 预 处 理 。 文 本 评论 数据 里 面 存在 大 量 价值 含量 很 低 甚 至 没有 价值 含量 的 条 目 ， 如 果 将 这 些 评论 数据 也 引入 进行 分 词 
析 造 成 很 大 的 影响 ， 得 到 的 结果 的 质量 也 必然 是 存在 问题 的 。 那 么 在 利用 这 些 文本 评论 数据 之 前 就 必须 先进 行文 本 预 处 理 ， 把 大 量 的 这 些 无 价值 含量 的 评论 去 除 。 


频 统计 乃至 情感 分 析 等 ， 则 必然 会 对 分 


对 这 些 文本 评论 数据 的 预 处 理 主要 由 三 个 部 分 组 成 : 文本 去 重 、 机 械 压 缩 去 词 以 及 短 句 删 除 。 
1. 文 本 去 重 

(1) 文本 去 重 的 基本 解释 及 原因 

文本 去 重 ， 顾 名 思 义 ， 


就 是 去 除 文 本 评论 数据 中 重复 的 部 分 。 无 论 获 取 到 什么 样 的 文本 评论 数据 ， 首 先 要 进行 的 预 处 理应 当 都 是 文本 去 重 。 文 本 去 重 的 主要 原因 如 下 : 


1) 一 些 电 商 平台 往往 为 了 避免 一 些 客户 长 时 间 不 进行 评论 ， 会 设置 一 道 程序 ， 如 果 用 户 超过 规定 的 时 间 仍 然 没 有 做 出 评论 ， 
美 。 但 是 这 类 数据 显然 没有 任何 分 析 价 值 ， 而 且 这 种 评论 是 大 量 重 复出 现 的 ， 必 须 去 除 。 


系统 会 自动 蔡 客 户 做 出 评论 ， 当 然 这 种 评论 的 结果 大 多 都 会 是 好 评 ， 如 国 


2) 同一 个 人 可 能 会 出 现 重复 的 评论 ， 因 为 同一 个 人 可 能 会 购买 多 种 热水器 ， 然 后 在 进行 评论 过 程 中 可 能 为 了 省 事 ， 
使 有 价值 也 只 有 第 一 条 有 作用 。 


就 在 多 个 热水器 中 采用 同样 或 相近 的 评论 ， 这 里 当然 可 能 不 乏 有 价值 的 评论 ， 但 是 即 


3) 由 语言 的 特点 可 知 ， 在 大 多 数 情况 下 ， 不 同人 之 间 的 有 价值 的 评论 都 不 会 出 现 完全 重复 ， 如 果 出 现 了 不 同人 评论 之 间 的 完全 重复 
器 xx 升 ”等 或 者 说 就 是 直接 复制 粘贴 上 一 人 的 评论 ， 这 种 评论 显然 就 只 有 最 早 评论 出 的 才 有 意义 〈 即 只 有 第 一 条 有 作用 ) 。 


， 这 些 评论 一 般 都 是 毫 无 意义 的 ， 如 “好 好 好 好 好 ”、 
而 如 果 不 是 完全 重复 ， 而 比较 相近 的 ， 也 存在 一 些 无 意义 的 评论 。 


“xx 牌 热 水 


(2) 常见 文本 去 重 算法 概述 及 缺陷 


在 前 人 的 研究 下 ， 有 许多 文本 去 重 算法 ， 大 多 都 是 先 通过 计算 文本 之 间 的 相似 度 ， 再 以 此 为 基础 进行 去 重 ， 包 括 编辑 距离 去 重 、Simhash 
例 ， 编 辑 距离 算法 去 重 实际 上 就 是 先 计算 两 条 语 料 的 编辑 距离 ， 然 后 进行 闪 值 判断 ， 如 果 编 辑 距离 小 于 某 个 靖 值 则 进行 去 除 重复 处 理 ， 


算法 去 重 等 ， 但 是 大 多 存在 一 些 缺陷 。 以 编辑 距离 算 
这 种 方法 针对 类 如 : 


法 去 重 为 


“x X 牌 热水器 XX 升 大 品牌 高 质量 ” 


和 

“XX 上 牌 热 水 器 X X 升 大 品牌 高 质量 用 起 来 真 的 不 错 ” 
的 接近 重复 而 又 无 任何 意义 的 评论 文本 的 去 除 效果 是 很 好 的 ， 主 要 为 了 去 除 接近 重复 或 完全 重复 的 评论 数据 ， 而 并 不 要 求 完全 重复 ， 但 是 当 这 种 方法 测 到 都 有 意义 ， 且 有 相近 的 表达 时 可 能 也 会 采取 删除 操 
作 ， 这 样 就 会 造成 错 删 问题 ， 如 下 面 的 例子 : 


“还 没 正式 使 用 ， 不 知道 怎样 ， 但 安装 的 材料 费 确实 有 点 高 ，380” 


和 

“还 没 使 用 ， 不 知道 质量 如 何 , 但 安装 的 材料 费 确实 贵 ，380” 

这 组 语句 的 编辑 距离 只 是 比 上 一 组 大 2 而 已 ， 但 是 很 明显 这 两 句 就 是 都 有 意义 的 ， 如 果 阅 值 设 为 10 (该 组 为 9) ， 就 会 带 来 错 删 问题 。 可 惜 的 是 ， 这 一 类 的 评论 数据 组 还 是 不 少 的 ， 特 别 是 差 评 的 语 料 ， 
许多 顾客 不 会 用 太 多 的 言语 表达 ， 直 至 中 心 ， 问 题 就 来 了 。 

(3) 文本 去 重 选用 的 方法 及 原因 

既然 这 一 类 相对 复杂 文本 去 重 的 算法 容易 去 除 有 用 的 数据 ， 那 么 就 需要 考虑 一 些 相 对 简单 的 文本 去 重 思路 。 由 于 相近 的 语 料 存 在 不 少 是 有 用 的 评论 ， 去 除 这 类 语 料 显然 不 合适 ， 那 么 为 了 存留 更 多 的 有 
用 语 料 ， 就 只 能 针对 完全 重复 的 语 料 下 手 。 因 此 ， 处 理 完全 重复 的 语 料 直接 采用 最 简单 的 比较 删除 法 就 好 了 ， 也 就 是 两 两 对 比 ， 完 全 相同 就 去 除 的 方法 。 

从 上 述 的 总 结 知道 存在 文本 重复 问题 的 条 目 归 结 到 底 只 有 1 条 语 料 甚 至 0 条 语 料 是 有 用 的 ， 但 是 透 过 观察 评论 知道 存在 重复 但 是 起 码 有 1 条 评论 有 用 的 语 料 ， 即 文本 去 重 原因 所 述 的 情况 ， 评 论 的 语 料 很 
多 ， 而 运用 比较 删除 法 显然 只 能 定 为 留 1 条 或 者 是 全 去 除 ， 因 此 只 能 设 为 留 1 条 ， 以 确保 尽 可 能 存留 有 用 的 文本 评论 信息 。 

观察 比较 删除 法 实现 后 的 结果 ， 发 现 总 体 效 果 还 是 很 不 错 的 。 其 代码 如 代码 清单 15-2 所 示 。 


代码 清单 15-2 ”原始 数据 去 重 


setwd ("Е: /数据 及 程序 /chapter15/ 示 例 程序 ") 

Data=readLines ("./data/meidi jd.txt", encoding = "UTF-8") 
length (Data) 

# 删 除 重 复 值 
Datal=unique (Data) 
length (Datal) 


* 代 码 详 见 : 示例 程序 /code/clean_same.R 
2. 机 械 压 缩 去 词 


(1) 机 械 压 缩 去 词 的 思想 
由 于 电 商 品 台 的 文本 评论 数据 质量 参差 不 齐 ， 没 有 意义 的 文本 数据 很 多 ， 因 此 透 过 文本 去 重 就 已 经 可 以 删除 掉 非 常 多 的 没有 意义 的 评论 文本 。 但 是 文本 去 重 远 远 不 够 ， 经 过 文本 去 重 后 的 评论 仍然 有 很 


[=] 


多 评论 需要 处 理 把， 比如 : 

非常 好 非常 好 非常 好 非常 好 非常 好 非常 好 非常 好 
和 

好 呀 好 呀 好 呀 好 呀 好 呀 好 呀 好 呀 好 呀 好 呀 


MZ 


语 料 是 存在 连续 重复 的 语 料 ， 也 是 最 常见 的 较 长 的 无 意义 语 料 。 因 为 大 多 数 给 出 无 意义 评论 的 人 都 只 是 为 了 获得 一 些 额 外 奖励 等 ， 并 不 对 评论 真正 抱 有 兴趣 ， 而 他 们 为 了 省 事 就 很 可 能 进行 这 样 


у. 


这 一 


a Ж 


然 这 一 类 语 料 并 不 显得 就 会 重复 ， 但 是 也 是 毫 无 意义 的 评论 ， 是 需要 删除 的 。 


， 计 算 机 不 可 能 自动 识别 出 所 有 这 种 类 型 的 语 料 ， 如 “非常 好 ”可 以 有 从 1 到 无 上 限 的 有 穷 个 的 去 加 ， 即 使 运用 词典 透 过 某 些 方式 识别 了 这 一 类 的 文本 评论 数据 ， 如 算出 “非常 好 ”比较 多 意味 


АБ E¿ 


Еа 
xE 
着 可 能 是 无 意义 评论 ， 一 位 制造 无 意义 评论 的 顾客 还 可 以 以 任何 一 个 词 进行 重复 ， 还 可 以 重复 某 词 ， 但 次 数 不 一 定 多 ， 而 这 种 显然 只 需要 保留 第 一 个 即 可 ， 若 不 处 理 ， 可 能 会 影响 情感 倾向 的 判断 ， 比 如 : 


15 分 钟 就 出 热 水 了 ， 感 党 还 不 错 ， 但 是 安装 费 实 在 是 太 贵 太 责 太 贵 太 责 ” 


“15 分 钟 就 出 热 水 了 ， 感 觉 还 不 错 ,， 但 是 安装 费 实在 是 太 贵 太 贵 太 贵 ” 
是 没有 差别 的 ， 但 是 若 不 处 理 ， 就 会 出 现 差别 。 
因此 ， 就 需要 对 语 料 进行 机 械 压 缩 去 词 处 理 ， 也 就 是 说 要 去 掉 一 些 连续 重复 票 效 的 表达 ， 比 如 把 ; 
“哈哈 哈哈 哈哈 哈哈 哈哈 哈 ” 
缩 成 
ы 
不 过 这 样 仍然 会 保留 无 意义 的 评论 (如 上 述 的 评论 ) ， 但 是 这 些 评 论 在 经 过 这 步 处 理 后 ， 在 最 后 一 个 预 处 理 环节 : 短 句 删除 环节 就 会 被 去 除 掉 。 当 然 ， 机 械 压 缩 去 词法 不 能 像 分 词 那样 去 识别 词语 。 
(2) 机 械 压 缩 去 词 处 理 的 语 料 结构 
机 械 压 缩 去 词 实际 上 要 处 理 的 语 料 就 是 语 料 中 有 连续 票 效 重复 的 部 分 ， 从 一 般 的 评论 偏好 角度 来 讲 ， 一 般 人 制造 无 意义 的 连续 重复 只 会 在 开头 或 者 结尾 进行 ， 比 如 : 
“为 什么 为 什么 为 什么 安装 费 这 么 贵 ， 宫 无 道理 ! ” 
和 


“ 真 的 很 好 好 好 好 好 好 好 好 ” 


等 等 ， 而 中 间 的 连续 重复 昌 然 也 有 ， 但 是 非常 少见 (中间 重 复 在 输入 上 显得 麻烦 ， 无 意义 评论 本 就 为 了 随意 了 事 ) ， 而 且 中 间 容 易 有 成 语 的 问题 ， 比 如 : 
装 师傅 滔滔 不 绝地 向 我 冰 述 这 款 热水器 有 多 好 ” 

这 种 语 料 显然 在 去 掉 一 个 “ 滔 ” 字 后 肯定 就 会 出 现 问题 ， 因 此 只 对 开头 以 及 结尾 的 连续 重复 进行 机 械 压 缩 去 词 的 处 理 。 

(3) 机 械 压缩 去 词 处 理 过 程 中 连续 累 歼 重复 的 判断 及 压缩 规则 的 阐述 


连续 累 歼 重复 的 判断 可 通过 建立 两 个 存放 国际 字符 的 列表 完成 ， 先 放 第 一 个 列表 ， 再 放 第 二 个 列表 ， 一 个 个 读 取 国 际 字符 ， 并 按照 不 同情 况 ， 将 其 放 入 带 第 一 或 第 二 个 列表 或 触发 压缩 判断 ， 若 得 出 重 

£ (及 列表 1 与 列表 2 有 意义 的 部 分 完全 一 对 一 相同 ) 则 压缩 去 除 ， 这 样 当 然 就 要 有 相关 的 放置 判断 及 压缩 规则 。 在 机 械 压 缩 去 词 处 理 的 连续 累 歼 重复 的 判断 及 压缩 规则 设 定时 ， 必 然 要 考虑 到 词法 结构 的 问 
题 ， 综 合 文字 表达 特点 ， 设 定 如 下 7 条 规则 (说 明 : 第 一 ， 这 里 为 了 初始 化 列表 而 放 入 的 空格 不 算 输 入 了 国际 字符 ; 第 二 ， 由 于 批量 的 评论 里 可 能 会 存在 某 些 评论 无 法 识别 ， 因 此 在 进行 这 一 步 时 需要 结合 运 
了 进程 人 工 删除 一 些 无 法 识别 语句 ) : 


规则 1: 如 果 读 入 的 这 个 字符 与 第 一 个 列表 的 第 一 个 字符 相同 ， 而 第 二 个 列表 没有 任何 放 入 的 国际 字符 ， 则 将 这 个 字符 放 入 第 二 个 列表 中 。 


解释 : 因为 一 般 情况 下 同一 个 字 再 次 出 现时 大 多 数 都 是 意味 着 上 一 个 词 或 是 一 个 语 段 的 结束 以 及 下 一 个 词 或 下 一 个 语 段 的 开始 ， 举 例如 图 15-7 所 示 。 


真 的 很 快 加 热 完 二 28 L 的 Ей „Ве А). 


8157 ”机械 压 缩 去 词 规则 1 的 示例 图 
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真 的 很 好 ! 真 的 很 便宜 ! Е о R.B ! 


图 15-9 ”机械 压缩 去 词 规则 3 的 示例 图 


很 满意 ! 很 满意 ! 宝贝 加 热 水 的 速度 真 的 很 快 ! 
| | | | | 
列表 1 ”列表 2 


顺带 可 以 处 理 的 语 料 : 


FA! Я! 

[—q Г 
真 的 真 的 很 好 很 好 用 | 
O н! 


图 15-10 “机械 压 缩 去 词 规 则 4 的 示例 图 
规则 2: 如 果 读 入 的 这 个 字符 与 第 一 个 列表 的 第 一 个 字符 相同 ， 而 第 二 个 列表 也 有 国际 字符 ， 则 触发 压缩 判断 ， 若 得 出 重复 ， 则 进行 压缩 去 除 ， 清 空 第 二 个 列表 。 
解释 : 判断 连续 重复 最 直接 的 方法 ， 举 例如 图 15-8 所 示 。 
规则 3: 如 果 读 入 的 这 个 字符 与 第 一 个 列表 的 第 一 个 字符 相同 ， 而 第 二 个 列表 也 有 国际 字符 ， 则 触发 压缩 判断 ， 若 得 出 不 重复 ， 则 清空 两 个 列表 ， 把 读 入 的 这 个 字符 放 入 第 一 个 列表 第 一 个 位 置 。 
解释 : 即 判断 得 出 两 个 词 是 不 相同 的 ， 都 应 保留 ， 举 例如 图 15-9 所 示 。 


规则 4: 如 果 读 入 的 这 个 字符 与 第 一 个 列表 的 第 一 个 字符 不 相同 ， 触 发 压缩 判断 ， 如 果 得 出 重复 ， 且 列表 所 含 国际 字符 数目 大 于 等 于 2， 则 进行 压缩 去 除 ， 清 空 两 个 列表 ， 把 读 入 的 这 个 字符 放 入 第 一 个 
列表 第 一 个 位 置 。 


解释 : 用 以 去 除 图 15-10 情 况 的 重复 ， 并 避免 类 如 “滔滔 不 绝 ” 这 种 情况 的 “ 滔 ” 被 删除 ， 并 可 顺带 压缩 去 除 另 一 类 连续 重复 ， 亦 如 图 15-10 所 示 。 

规则 5: 如 果 读 入 的 这 个 字符 与 第 一 个 列表 的 第 一 个 字符 不 相同 ， 触 发 压缩 判断 ， 若 得 出 不 重复 ， 且 第 二 个 列表 没有 放 入 国际 字符 ， 则 继续 在 第 一 个 列表 放 入 国际 字符 。 
解释 : 没 出 现 重复 字 就 不 会 有 连续 重复 语 料 ， 第 二 个 列表 未 启用 则 继续 填 入 第 一 个 列表 ， 直 至 出 现 重复 情况 为 止 。 

规则 6: 如 果 读 入 的 这 个 字符 与 第 一 个 列表 的 第 一 个 字符 不 相同 ， 触 发 压缩 判断 ， 若 得 出 不 重复 ， 且 第 二 个 列表 已 放 入 国际 字符 ， 则 继续 在 第 二 个 列表 放 入 国际 字符 。 
解释 : 类 似 规 则 5， 此 处 省 略 叙 述 。 

规则 7: 读 完 所 有 国际 字符 后 ， 触 发 压缩 判断 ， 对 第 一 个 列表 以 及 第 二 个 列表 有 意义 部 分 进行 比较 ， 若 得 出 重复 ， 则 进行 压缩 去 除 。 


解释 : 由 于 按照 上 述 规则 ， 在 读 完 所 有 国际 字符 后 不 会 再 触发 压缩 判断 条 件 ， 故 为 了 避免 图 15-11 实 例 连 续 重复 情况 ， 补 充 这 一 规则 。 


915-11 ”机械 压 缩 去 词 规则 7 的 示例 图 


(4) 机 械 压缩 去 词 处 理 操作 流程 


根据 上 述 规 划 ， 便 可 以 完成 对 开头 连续 重复 的 处 理 。 类 似 的 规则 ， 亦 可 以 对 处 理 过 的 文本 再 进行 一 次 结尾 连续 重复 的 机 械 压 缩 去 词 ， 算 法 思想 是 相近 的 ， 只 是 从 尾部 开始 读 词 轻 了 。 从 结尾 开始 的 处 理 
结束 后 就 得 到 了 已 压缩 去 词 完 成 的 精简 语 料 。 


可 以 ， 可 以 可 以 可 以 可 以 可 以 
可 以 ， 可 以 
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图 15-12 ”被 压缩 的 语句 和 原 语句 对 比 
输出 被 压缩 的 语句 和 原 语句 的 对 比 ， 图 15-12 截 取 了 一 部 分 前 向 机 械 压 缩 的 对 比例 子 。 


3. 短 句 删除 


(1) 短 句 删 除 的 原因 及 思想 


完成 机 械 压缩 去 词 处 理 后 ， 则 进行 最 后 的 预 处 理 步 又: 短 名 删除。 虽然 精简 的 辞藻 在 很 多 时 候 是 一 种 比较 良好 的 习惯 ， 但 是 由 语言 的 特点 可 知 ， 从 根本 上 说 ， 字 数 越 少 所 能 够 表达 的 意思 是 越 少 的 ， 要 
想 表达 一 些 相关 的 意思 就 一 定 要 有 相应 量 的 字数 ， 过 少 的 字数 的 评论 必然 是 没有 任何 意义 的 评论 ， 如 三 个 字 ， 就 只 能 表达 诸如 “很 不 错 ”、 “质量 差 ” 等 。 为 此 ， 就 要 删除 掉 过 短 的 评论 文本 数据 ， 以 去 除 
掉 没 有 意义 的 评论 ， 包 括 : 


1) 原本 就 过 短 的 评论 文本 ， 如 “很 不 错 ”。 
2) 经 机 械 压 缩 去 词 处 理 后 过 短 的 评论 文本 ， 即 原本 为 存在 连续 重复 的 且 无 意义 的 长 文本 ， 如 “好 好 好 好 好 好 好 好 好 好 好 好 好 好 好 好 ”。 
(2) 保留 的 评论 的 字数 下 限 的 确定 


显然 ， 短 句 删 除 最 重要 的 环节 就 是 保留 的 评论 的 字数 下 限 的 确定 ， 这 个 没有 精确 的 标准 ， 可 以 结合 特定 语 料 来 确定 ， 一 般 4~ 8 个 国际 字符 都 是 较为 合理 的 下 限 ， 在 此 处 设 定 下 限 为 7 个 国际 字符 ， 即 经 过 
前 两 步 预 处 理 后 得 到 的 语 料 若 小 于 等 于 4 个 国际 字符 ， 则 将 该 语 料 删 去 。 


经 过 前 两 步 的 处 理 后 ， 第 三 步 ( 短 句 删除 ) 的 效果 是 比较 有 效 且 明显 的 ， 可 以 看 出 该 程序 能 过 滤 掉 众多 的 垃圾 信息 。 


1523 ”文本 评论 分 词 
在 中 文中 ， 只 有 字 、 句 和 段落 能 够 通过 明显 的 分 界 符 进行 简单 的 划 界 ， 而 对 于 “ 词 ” 和 “词组 ”来 说 ， 它 们 的 边界 模糊 ， 没 有 一 个 形式 上 的 分 界 符 。 因 此 ， 进 行 中 文 文本 挖掘 时 ， 首 先 应 对 文本 分 词 ， 
即将 连续 的 字 序 列 按照 一 定 的 规范 重新 组 合成 词 序列 的 过 程 。 


分 词 结果 的 准确 性 对 后 续 文 本 挖掘 算法 有 着 不 可 忽视 的 影响 ， 如 果 分 词 效果 不 佳 ， 即 使 后 续 算 法 优秀 也 无 法 实现 理想 的 效果 。 例 如 ， 人 在 特征 选择 的 过 程 中 ， 不 同 的 分 词 效果 将 直接 影响 词语 在 文本 中 的 
重要 性 ， 从 而 影响 特征 的 选择 。 


本 章 采 用 R 语 言 的 中 文 分 词 包 “jiebaR”， 对 TXT 文档 中 的 商品 评论 数据 进行 中 文 分词 。 “结巴 分 词 ”提供 分 词 、 词 性 标注 、 未 登录 词 识别 、 支 持 用 户 词典 等 功能 。 经 过 相关 测试 ， 此 系统 的 分 词 精度 高 
达 97% 以 上 。 为 进一步 进行 词 频 统计 ， 分 词 过 程 将 词性 标注 作用 去 掉 。 


15.24 ”模型 构建 


1. 情 感 倾向 性 模型 
(1) 训练 生成 词 向 量 


首先 训练 以 得 到 词 向 量 ， 为 了 将 文本 情感 分 析 (情感 分 类 ) 转化 为 机 器 学 习 问 题 ， 首 先 就 是 需要 将 符号 数学 化 。 在 NLP 中 ， 最 常见 的 词 表示 方法 就 是 One-hot Representation: 将 一 个 词 映射 成 一 个 很 
长 的 单位 向 量 ， 向 量 的 长 度 就 是 词 表 的 大 小 ， 如 “学习” 表示 成 [0001000000000000.] ， “复习 ”表示 成 [0000000010000000.…]， 这 样 就 完成 了 词语 的 数学 化 表示 。 


但 是 ， 这 样 就 存在 “词汇 鸿沟 ”的 问题 : 即使 两 个 词 之 间 存 在 明显 的 联系 但 是 在 向 量 表示 法 中 却 体现 不 出 来 ， 无 法 反映 语义 关联 。 然 而 ，Distributed Representation 却 是 能 反映 出 词语 与 词语 之 间 的 
距离 远近 关系 ， 而 用 Distributed Representation 表 示 的 向 量 专门 称 为 词 向 量 ， 如 “学 习 ” 可 能 被 表示 成 [0.1, 0.1, 0.1, 0.15, 0.2..] ， “复习 ”可 能 被 表示 成 [0.11, 0.12, 0.1, 0.15, 0.22...] , X 
样 ， 两 个 词义 相近 的 词语 被 表示 成 词 向 量 后 ， 它 们 的 距离 也 是 较 近 的 ， 词 义 关 联 不 大 的 两 个 词 的 距离 会 比较 远 。 一 般 而 言 ， 不 同 的 训练 方法 或 语料库 训练 得 到 的 词 向 量 是 不 一 样 的 ， 它 们 的 维度 常见 为 50 维 
和 100 维 。 


word2vec 采 用 神经 网 络 语言 模型 NNLM 和 N-gram 语言 模型 ， 每 个 词 都 可 以 表示 成 一 个 实数 向 量 。 模 型 如 图 15-13 所 示 。 


图 15-13 最 下 方 的 Wt-n+1，…，Wt-2，Wt-1 就 是 前 n-1 个 词 。 现 在 需要 根据 这 已 知 的 n-1 个 词 预 测 下 一 个 词 Wt。C (w) 表示 词 W 对 应 的 词 向 量 ， 存 在 矩 阵 C (一 个 |V|x тА) 中 。 其 中 |V| 表 示 词 表 的 
大 小 〈 语 料 中 的 总 词 数 ) ，m 表 示 词 向 量 的 维度 。w 到 C (w) 的 转化 就 是 从 和 矩阵 中 取出 一 行 。 


网 络 的 第 一 层 (输入 层 ) 是 将 C (Wt-n+1) ，…，C (Wt-2) , С (мет) 这 nm-1 个 向 量 首 属相 接 拼 起 来 ， 形 成 一 个 (n-1) m 维 的 向 量 ， 记 为 x。 


网 络 的 第 二 层 (隐藏 层 ) 就 如 同 普通 的 神经 网 络 ， 直 接 使 用 d+ Hx 计算 得 到 。d 是 一 个 偏 置 项 。 在 此 之 后 ， 使 用 tanh 作 为 激活 函数 。 


i-th output =P (w=i | context) 
softmax Ура 


Я 计算 、 


x | anh 激活 函数 ис 


网 络 的 第 三 层 (输出 层 ) 一 共有 |V| 个 节点 ， 


y = b + Wx + U tanh(d + Hx) 


HERS, ЗУУ АВЕ РЕ ОДЕ НУХЕ ВЕЗАН, EW (一 个 |Mlx (n-1) m 的 矩阵 ) ， 这 个 矩阵 包含 了 从 输入 层 到 输出 层 的 直 连 边 。 


(15-1) 


(2) 评论 集 子 集 的 人 工 标注 与 映射 

利用 词 向 量 构建 的 结果 ， 再 进行 评论 集 子 集 的 人 工 标注 ， 正 面 评论 标 为 1， 负 面 评论 标记 为 2 (或 者 采用 Python 的 NLP 包 snownlp 的 sentiment 功 能 做 简单 的 机 器 标注 ， 减 少 人 为 工作 量 ) 。 然 后 将 每 条 
评论 映射 为 一 个 向 量 ， 将 分 词 后 评论 中 的 所 有 词语 对 应 的 词 向 量 相 加 做 平均 ， 使 得 一 条 评论 对 应 一 个 向 量 。 

(3) 训练 栈 式 自 编码 网 络 


自 编 码 网 络 是 由 原始 的 BP 神 经 网 络 演化 而 来 。 在 原始 的 BP 神 经 网 络 中 从 特征 空间 输入 到 神经 网 络 中 ， 并 用 类 别 标签 与 输出 空间 来 衡量 误差 ， 用 最 优化 理论 不 断 求 得 极 小 值 ， 从 而 得 到 一 个 与 类 别 标签 相 
近 的 输出 。 但 是 在 编码 网 络 并 不 是 如 此 ， 并 不 用 类 别 标签 来 衡量 与 输出 空间 的 误差 ， 而 是 用 从 特征 空间 的 输入 来 衡量 与 输出 空间 的 误差 。 其 结构 如 图 15-14 所 示 。 


图 15-14” 自 编码 网 络 结构 示意 图 


把 特征 空间 的 向 量 (x1, X2, X3, X4) 作为 输入 ， 把 经 过 神经 网 络 训练 后 的 向 量 (x1 ，x2 ，x3 ，X4') БАЛА (хү, X2, хз, хд) 来 衡量 误差 ， 最 终 得 到 了 一 个 能 从 原始 数据 中 自主 学 习 特 征 的 一 
个 特征 提取 的 神经 网 络 。 从 代数 角度 而 言 ， 即 从 一 个 线性 相关 的 向 量 中 ， 寻 找 出 了 一 组 低 维 的 基 ， 而 这 组 基线 性 组 合 之 后 又 能 还 原 成 原始 数据 。 自 编码 网 络 正 是 寻找 了 一 组 这 样 的 基 。 


神经 网 络 的 出 现 ， 时 来 已 久 ， 但 是 因为 局 部 极 值 、 梯 度 弥散 、 数 据 获取 等 问题 而 构建 不 出 深层 的 神经 网 络 ， 直 到 2007 年 深度 学 习 的 提出 ， 才 让 神经 网 络 的 相关 算法 得 到 质 的 改变 。 而 栈 式 自 编码 就 属于 
深度 学 习 理论 中 一 种 能 够 得 到 优秀 深层 神经 网 络 的 方法 。 


栈 式 自 编码 神经 网 络 是 一 个 由 多 层 稀疏 自 编码 器 组 成 的 网 络 。 它 的 思想 是 利用 逐 层 贪 梦 训 练 的 方法 ， 把 原来 多 层 的 神经 网 络 剖 分 成 一 个 个 小 的 自 编码 网 络 ， 每 次 只 训练 一 个 自 编码 器 ， 然 后 将 前 一 层 自 
编码 的 输出 作为 其 后 一 层 自 编码 器 的 输入 ， 最 后 连接 一 个 分 类 器 ， 可 以 是 SVM、Ssoftmax 等 。 上 述 步骤 是 为 了 得 到 一 个 好 的 初始 化 深度 神经 网 络 的 权重 ， 当 连接 好 一 个 分 类 器 后 ， 还 可 以 用 BP 神 经 网 络 的 思 
想 ， 反 向 传播 微调 神经 元 的 权重 ， 以 期 得 到 一 个 分 类 准确 率 更 好 的 栈 式 自 编码 神经 网 络 。 


完成 评论 映射 后 ， 将 标注 的 评论 划分 为 训练 集 和 测试 集 ， 在 MATLAB 下 ， 利 用 标注 好 的 训练 集 (标注 值 和 向 量 ) 训练 栈 式 自 编码 网 络 (SAE) ， 对 原始 向 量 做 深度 学 习 提取 特征 ， 并 后 接 Softmax 分 类 
器 做 分 类 ， 用 测试 集 测试 训练 好 的 模型 的 正确 率 。 


2. 基 于 语义 网 络 的 评论 分 析 

本 节 使 用 语义 网 络 分 析 对 评论 进行 进一步 的 分 析 ， 包 括 各 产品 独 有 优势 、 各 产品 抱怨 点 以 及 顾客 购买 原因 等 ， 并 结合 以 上 分 析 对 品牌 产品 的 改进 提出 建议 。 
这 一 部 分 主要 通过 由 三 种 品牌 型 号 的 好 、 差 评 文本 数据 生成 的 语义 网 络 图 ， 结 合共 词 矩 阵 以 及 评论 定向 筛选 回 查 完成 对 评论 的 分 析 。 

(1) 语义 网 络 的 概念 、 结 构 与 构建 本 质 


语义 网 络 是 由 R.F.Simon 提 出 的 用 于 理解 自然 语言 并 获取 认 知 的 概念 ， 是 一 种 语言 的 概念 及 关系 的 表达 。 语 义 网 络 实际 上 就 是 一 幅 有 向 网 络 图 ， 举 例如 图 15-15 所 示 。 


图 15-15 语义 网 络 举 例 示意 图 


节点 中 的 物体 可 以 是 各 种 用 文字 所 表达 的 事物 ， 而 节点 之 间 的 有 向 弧 则 被 用 以 表达 节点 之 间 的 语言 意义 上 的 关系 ， 其 中 弧 的 方向 是 语言 关系 的 因果 指向 ， 如 A 指向 B 就 意味 着 A 与 B 有 语言 关系 牵连 且 和 A 与 
B 分 别 是 语义 复杂 关系 的 主动 方 与 从 动 方 。 当 然 ， 这 种 用 语言 意义 上 的 关系 往往 是 复杂 的 。 以 图 15-15 为 例 ， 由 于 是 一 名 酒鬼 ， 那 么 他 或 她 就 经 常会 在 特定 情况 之 下 (如 朋友 聚会 、 婚 宴 等 ) 暴 饮 ; 一 个 人 因 
受到 各 种 挫折 而 显得 悲伤 ， 长 期 的 悲伤 无 法 释怀 ， 只 能 通过 借 酒 浇 愁 就 可 能 会 成 为 酒鬼 。 这 里 面 就 都 是 些 复杂 的 关系 。 


虽然 每 一 个 语义 网 络 结构 里 事物 (节点) 之 间 的 关系 是 复杂 的 ， 但 是 语义 网 络 的 每 一 道 弧 的 形成 从 本 质 上 看 就 是 由 于 这 种 语义 关系 的 存在 。 不 同 的 用 词语 表达 的 特定 事物 之 间 就 是 因为 存在 干 丝 万 缕 的 
联系 ， 才 会 形成 一 个 个 的 语义 网 络 。 


(2) 基于 语义 网 络 进行 评论 分 析 的 优势 


从 前 面 的 论述 当中 知道 ， 要 想 对 中 文 的 热水器 评论 进行 合理 的 分 析 必 须要 采取 的 一 项 措施 是 分 词 ， 因 为 计算 机 不 可 能 像 人 一 样 去 识别 每 一 个 整 句 的 语义 ， 不 能 直接 识别 语句 的 整体 结构 思想 ， 但 是 分 词 


又 会 使 得 语句 的 整体 结构 变 得 凌乱 ， 从 而 对 分 词 后 的 语句 直接 进行 诸如 产品 差异 等 复杂 的 分 析 变 得 不 合 实际 ， 所 以 必须 要 采取 方法 尽 可 能 地 将 这 种 原 已 凌乱 的 关系 重新 整合 起 来 ， 使 得 复杂 的 分 析 重 新 变 为 
可 能 。 那 么 建立 起 事物 之 间 (这 里 分 出 的 每 一 个 词 料 代 表 一 项 事物 ) 的 语义 网 络 天 系 就 能 够 使 得 原 已 凌乱 的 关系 得 以 整合 ， 特 别 是 那些 可 以 连 成 通顺 语 料 的 词语 的 关系 ( 即 连接 “因果 ”关系 ) 的 重新 整 

合 ， 而 这 种 关系 的 成 功 重建 能 够 清晰 地 还 原 语 料 中 所 反映 出 来 的 许多 内 容 ， 特 别 是 单独 的 词语 无 法 清晰 表达 相应 的 情况 时 ， 比 如 : 

“安装 ”与 “方便 ”分 开 时 ， 任 何 一 方 都 不 能 清晰 表达 相关 的 情况 ， 单 独 一 个 “安装 ”可 以 表达 很 多 内 容 ， 可 以 是 “安装 很 容易 ”， 也 可 以 是 “有 师 传 上门 帮忙 安装 ” ， 还 可 以 是 “安装 要 收 手续 

， 等 等 ; 而 单独 一 个 “方便 ”也 可 以 表达 很 多 内 容 ， 可 以 是 “使 用 十 分 方便 ”， 也 可 以 是 “商品 签收 方便 快捷 ”， 还 可 以 是 “ 交 款 方式 方便 简易 ”， 等 等 ， 但 是 如 果 “ 安 装 ” 和 “方便 ”通过 语义 网 络 
方式 连接 起 来 ， 如 图 15-16 所 示 ， 就 可 以 清晰 地 反映 出 是 相关 热水器 产品 在 安装 时 比较 便利 。 再 如 ，“ 热 水 ”与 “不 足 ” 也 是 这 样 的 情况 ， 此 处 就 不 再 玖 述 。 


ув 


图 15-16 “安装 ”和 “方便 ”的 语义 网 络 连接 示意 图 


当 这 种 语义 网 络 建立 起 来 后 ， 就 可 以 借助 它 进 行 各 种 各 样 的 特定 的 分 析 ， 特 别 是 在 判断 特定 产品 优点 、 抽 取 各 品牌 的 顾客 关注 点 等 上 都 具有 一 定 的 优势 。 以 判断 特定 产品 优点 为 例 ， 如 果 某 种 产品 相对 
于 其 他 产品 具有 某 种 特定 的 优势 ， 那 么 由 该 种 商品 的 正面 评论 形成 的 语义 网 络 上 就 会 生成 与 其 他 产品 正面 评论 形成 的 语义 网 络 不 一 样 的 且 编 含 着 这 种 优势 的 关系 连接 ， 透 过 可 视 化 ， 就 能 够 从 中 抽取 出 来 。 

(3) 基于 语义 网 络 进行 评论 分 析 的 前 期 步骤 与 解释 

进行 语义 网 络 分 析 所 需要 的 前 期 步骤 实际 上 就 是 在 二 分 类 文本 情感 分 析 的 基础 上 增添 ， 语 义 网 络 的 分 析 之 所 以 要 以 二 分 类 文本 情感 分 析 的 结果 为 基础 在 于 评论 是 正面 的 以 及 评论 是 负面 的 大 多 都 会 具有 
不 同 的 语意 结构 ， 且 对 于 同一 商品 而 言 ， 正 面 以 及 负面 的 评论 从 根本 上 说 关注 的 点 必然 是 不 完全 一 样 的 ， 信 息 也 是 不 完全 一 样 的 ， 毕 竟 正 面 以 及 负面 评论 之 间 是 存在 逻辑 冲突 的 。 而 这 种 正面 负面 评论 的 分 
割 需 要 用 到 情感 分 析 的 技术 。 具 体 前 期 步骤 如 下 : 

第 一 步 ， 数 据 预 处 理 ， 分 词 以 及 对 停 用 词 的 过 滤 ; 

第 二 步 ， 进 行情 感 倾向 性 分 析 ， 并 借助 此 将 评论 数据 分 割 成 正面 (好 评 ) 、 负 面 ( 差 评 ) 、 中 性 (中 评 ) 三 大 组 ; 

第 三 步 ， 抽 取 正 面 (好 评 ) 、 负 面 (AF) 两 组 ， 以 进行 语义 网 络 的 构建 与 分 析 。 

第 一 步 可 以 直接 按照 原 有 的 流程 进行 ， 第 三 步 的 抽取 只 需要 在 第 二 步 分 成 的 三 组 结果 中 抽取 即 可 ， 不 对 中 性 评论 进行 分 析 是 因为 中 性 评论 往往 携带 着 比较 复杂 的 信息 ， 难 以 对 细节 进行 倾向 性 提取 。 


而 第 二 步 的 情感 倾向 性 分 析 并 将 评论 数据 分 类 可 以 在 原 有 的 情感 分 析 工 作 基 础 上 做 出 修改 来 完成 ， 但 是 在 此 处 使 用 ROSTCM6 来 完成 该 项 操作 。ROST 系 统 是 由 武汉 大 学 开发 的 一 款 免 费 反 于 穷 系 统 
(ROSTCM6 全 称 为 ROST Content Mining System (Version 6.0) ) ， 可 用 以 检测 论文 抄袭 的 现象 ; 而 同时 ROST 系 统 又 是 一 款 大 型 的 免费 用 以 社会 计算 的 软件 ， 可 以 用 以 实现 多 种 类 型 的 分 析 ， 包 括 情 
感 倾 向 性 分 析 以 及 后 面 将 要 进行 语义 网 络 的 构建 等 。 使 用 ROSTCM6 来 完成 情感 分 析 是 因为 该 软件 的 情感 倾向 性 分 析 使 用 的 是 基于 优化 的 情感 词典 的 方法 ， 其 准确 率 目前 来 讲 会 比 基 于 词 向 量 以 及 基于 神经 


网 络 的 情感 分 析 方 法 的 正确 率 会 高 ， 而 前 述 用 于 情感 倾向 性 分 析 的 方法 是 基于 词 向 量 以 及 基于 神经 网 络 的 情感 倾向 性 分 析 方 法 。 另 外 ， 受 限于 现今 中 文 分 词 技术 的 缺陷 以 及 评论 本 身 的 特性 ， 能 够 透 过 中 文 
评论 所 挖 扬 出 来 的 内 容 还 是 偏 少 的 ， 因 此 对 情感 倾向 性 分 析 的 正确 率 要 求 就 要 更 高 。 当 需要 以 此 为 基础 进一步 分 析 时 ， 就 需要 利用 基于 情感 词典 的 方法 。 第 二 步 的 具体 流程 如 下 : 


点 击 “ 功 能 性 分 析 ”， 再 点 击 “ 情 感 分 析 ” ， 然 后 将 待 分 析 的 文件 地 址 输入 “ 待 分 析 文 件 路 径 ” 对 应 框 内 ， 上 点击“ 分 析 ” 选 项 就 得 到 了 情感 倾向 性 分 析 的 结果 ， 三 种 情感 倾向 被 放 入 三 个 不 同 的 TXT 文 
件 内 (图 15-17) 。 


这 三 步 完 成 后 ， 便 可 以 开始 进行 语义 网 络 分 析 。 
(4) 基于 语义 网 络 进行 评论 分 析 的 实现 过 程 


要 进行 语义 网 络 分 析 ， 首 先 要 分 别 对 两 大 组 重新 进行 分 词 处 理 ， 并 提取 出 高 频 词 (为 了 实现 更 好 的 分 词 效果 ， 在 分 词 词典 中 引入 更 多 的 词汇 ) 。 因 为 只 有 高 频 词 之 间 的 语义 联系 才 是 真正 有 意义 的 ， 个 
性 化 词语 闻 的 关系 不 具 代表 性 。 然 后 在 此 基础 上 过 滤 掉 显著 的 无 意义 的 成 分 ， 减 少 分 析 干 扰 。 最 后 再 抽取 行 特征 ， 处 理 完 后 便 可 进行 两 组 语义 网 络 的 构建 。 


同时 永利 用 软件 ROSTCM6 来 完成 这 一 部 分 及 语义 网 络 构建 的 操作 。 打 开 ROSTCM6 软 件 ， 点 击 “ 功 能 性 分 析 ” 选 项 ， 再 点 击 “ 社 会 网 络 与 语义 网 络 分 析 ” ， 便 得 到 社会 网 络 与 语义 网 络 分 析 的 界面 ， 如 
图 15-18 所 示 。 
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图 15-17 (Ж) 


将 分 好 的 好 评 和 差 评 两 个 文本 文档 中 好 评 文档 的 地 址 输入 “ 待 处 理 文件 ”对 应 框 内 ， 并 点 击 “ 提 取 高 频 词 ”、“ 过 滤 无 意义 词 ” 以 及 “提取 行 特征 ”， 这 样 便 完成 了 对 应 的 操作 ， 系 统 还 会 自动 生成 对 
应 处 理 后 的 文件 。 在 此 之 后 ， 依 次 点 击 “ 构 建 网 络 ”与 “启动 NetDraw”， 然 后 就 得 到 了 好 评 文档 的 语义 网 络 图 (其 生成 的 语义 网 络 图 可 能 不 便 观察 ， 可 以 移动 NetDraw 生 成 的 语义 网 络 结果 中 的 节点 以 增 
强 该 网 络 的 可 读 性 ) ， 为 了 方便 分 析 ， 再 点 击 “ 构 建 短 阵 ”， 形 成 被 挑选 出 的 节点 词 的 矩阵 词 表 ， 该 操作 会 生成 一 个 XLS 文件 。 完 成 好 评 文 档 语义 网 络 图 的 构建 后 再 对 差 评 文档 进行 同样 的 操作 ， 也 将 得 到 
相应 的 语义 网 络 图 。 三 种 品牌 三 种 型 号 对 应 就 会 有 总 共 六 个 好 评 文 档 及 差 评 文 要 ， 对 应 就 会 生成 六 个 语义 网 络 图 ， 并 以 此 为 基础 ， 结 合共 词 矩 阵 (可 在 语义 网 络 生成 后 再 点 击 “ 构 建 德 阵 ”形成 ) 与 评论 定 
向 筛选 回 查 ， 便 可 进行 相关 评论 分 析 。 
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‚ АПТЕ, 


3. 基 于 LDA 模 型 的 主题 分 析 
基于 语义 网 络 的 评论 分 析 进 行 初步 数据 感知 后 ， 从 统计 学 习 的 角度 ， 对 主题 的 特征 词 出 现 频 率 进 行 量 化 表示 。 本 小 节 运 用 LDA 主 题 模 型 ， 用 以 挖掘 三 种 品牌 评论 中 更 多 的 信息 。 
直观 上 来 说， 判断 两 个 文档 相似 性 的 传统 方法 是 通过 查看 两 个 文档 共同 出 现 的 单词 的 多 少 
进行 语义 挖掘 ， 而 语义 挖掘 的 有 效 工 具 即 为 主题 


主题 模型 在 机 器 学 习 和 自然 语言 处 理 等 领域 是 用 来 在 一 系列 文档 中 发 现 抽象 主题 的 一 种 统计 模型 
TF-IDF 等 ， 这 种 方法 没有 考虑 到 文字 背后 的 语义 关联 ， 可 能 在 两 个 文档 共同 出 现 的 单词 很 少 甚至 没有 ， 但 两 个 文档 是 相似 的 ， 因 此 在 判断 文档 相似 性 时 ， 应 ; 


能 够 发 现 文本 中 使 用 词语 的 规律 ， 并 且 把 规律 相似 的 文本 联系 到 一 起 ， 以 寻求 非 结 构 化 的 文本 集中 
将 与 热水器 代表 性 特征 相关 的 情感 描述 性 词语 ， 同 相应 


模型 。 
则 一 些 特定 的 可 代表 不 同 主题 的 词语 会 反复 出 现 ， 此 时 ， 运 用 主题 模型 
“出 水 量 ”、“ 服 务 ” 等 会 频繁 地 出 现在 评论 中 ， 运 用 主题 模型 
督 的 生成 式 主题 概率 模型 。 


如 果 一 篇 文档 有 多 个 主题 ， 
的 有 用 信息 。 例 如 ， 对 于 热水器 的 商品 评论 ， 代 表 热 水 器 特征 的 词语 如 “安装 ”、 
的 特征 词语 联系 起 来 ， 从 而 深入 了 解 热 水 器 评价 的 聚焦 点 及 用 户 对 于 某 一 特征 的 情感 最 向 。LDA 模 型 作为 其 中 一 种 主题 模型 ， 属 于 无 监 


(1) LDA 主 题 模型 介绍 
潜在 狄 利克 雷 分 配 (Latent Dirichlet Allocation, LDA) 是 由 Blei 等 在 2003 年 提出 的 生成 式 主题 模型 站。 生成 模型 ， 即 认为 每 一 篇 文档 的 每 一 个 词 都 是 通过 “一 定 的 概率 选择 了 某 个 主题 ， 并 从 这 个 主 
LDA 模 型 也 被 称 为 三 层 贝 叶 斯 概率 模型 ， 包 含 文档 (d) 、 主 题 (z) 、 词 (w) 三 层 结构 ， 能 够 有 效 地 对 文本 进行 建 模 ， 和 传统 的 空间 向 量 模 型 (VSM) 相 比 ， 增 加 


题 中 以 一 定 的 概率 选择 了 某 个 词语 ”。 
了 概率 的 信息 。 通 过 LDA 主 题 模 型 ， 能 够 挖掘 数据 集中 的 潜在 主题 ， 进 而 分 析 数 据 集 的 集中 关注 点 及 其 相关 特征 词 。 
LDA 模 型 采用 词 袋 模型 (Bag of Words, BOW) 将 每 一 篇 文档 视 为 一 个 词 频 向 量 ， 从 而 将 文本 信息 转化 为 易于 建 模 的 数字 信息 


日 ~ Dir (а) 


图 15-19 ”LDA 模型 结构 示意 图 
< Ям). М 


wy) 。 假 设 某 一 商品 的 评论 集 D 由 M 篇 评论 构成 ， 记 为 D= (91, d2 


.，0，0) 表示 一 个 词 。 由 N 个 词 构成 的 评论 记 为 d= (w1, w2, 
记 a 和 b 为 狄 利克 备 函 数 的 先 验 参 数 ，q 为 主题 在 文档 中 的 多 项 分 布 的 参数 ， 其 服从 超 参数 为 a 的 Dirichlet 先 验 分 布 ，{f 为 词 在 主题 中 的 多 项 分 布 的 参数 ， 其 


定义 词 表 大 小 为 L， 一 个 L 维 向 量 (1, 0, 0 
‚ К)» 


篇 评论 分 布 着 K 个 主题 ， 记 为 zi (i=1, 2,.. 
服从 超 参 数 b 的 Dirichlet 先 验 分 布 。LDA 模 型 示意 图 如 图 15-19 所 示 。 


LDA 模 型 假定 每 篇 评论 由 各 个 主题 按 一 定 比 例 随 机 混合 而 成 ， 混 合 比例 服从 多 项 分 布 ， 记 为 : 


Z |0 = Multinomial( 0) (15-2) 
而 每 个 主题 由 词汇 表 中 的 各 个 词语 按 一 定 比例 混合 而 成 ， 混 合 比例 也 服从 多 项 分 布 ， 记 为 : 
W| Z,b = Multinomial( œ) (15-3) 


在 评论 dj 条 件 下 生成 词 wi 的 概率 表示 为: 


PO la) = 3 Punla aP = g | a.) (15-4) 


у =] 
т\н, Р (wilz=s) 表示 词 wi 属 于 第 s 个 主题 的 概率 ; Р (z=s|dj) 表示 第 s 个 主题 在 评论 dj 中 的 概率 。 
(2) LDA 主 题 模型 估计 


LDA 模 型 对 参数 q、f 的 近似 估计 通常 使 用 马尔 科 夫 链 蒙特 卡 洛 (Markov Chain Monte Carlo, MCMC) 算法 中 的 一 个 特例 Gibbs 抽 样 。 利 用 Gibbs 抽 样 对 LDA 模 型 进行 参数 估计 ， 依 据 下 式 : 


Кта жВ) 
г 
У rm. +В, | х (љо + G.) 


=] 


Pia = #$ 


Z W е (15-5) 


式 中 ，zi=s| 表 示 词 wi 属 于 第 s| 个 主题 的 概率 ; 2 АИТАТ; ns，- 闵 示 不 包含 当前 词 wi 的 被 分 配 到 当前 主题 zs 下 的 个 数 ; ns JEREKAR EE Az РАЈУ. 


通过 对 式 (15-5) 的 推导 ， 可 以 推导 得 到 词 w 在 主题 zs 中 的 分 布 的 参数 估计 $s，i， 主 题 zs 在 评论 dj 中 的 多 项 分 布 的 参数 估计 6j，s: 


i — (15-6) 


В ыа ба (15-7) 


К 
Y п, + a, 


s=1 

AP, ns, 址 示 词 wi 在 主题 zs 中 出 现 的 次 数 ; mj，s 表 示 文 档 dj 中 包含 主题 zs 的 个 数 。 

首先 ，LDA 主 题 模型 在 文本 聚 类 、 主 题 挖掘 、 相 似 度 计 算 等 方面 都 有 广泛 的 应 用 ， 相 对 于 其 他 主题 模型 ， 其 引入 了 狄 利克 雷 先 验 知识 ， 因 此 ， 模 型 的 泛 化 能 力 较 强 ， 不 易 出 现 过 拟 合 现象 。 其 次 ， 它 是 
一 种 无 监督 的 模式 ， 只 需要 提供 训练 文档 ， 它 就 可 以 自动 训练 出 各 种 概率 ， 无 需 任 何人 工 标 注 过 程 ， 节 省 大 量 人 力 及 时 间 。 再 次 ，LDA 主 题 模型 可 以 解决 多 种 指 代 问 题 。 例 如 ， 在 热水器 的 评论 中 ， 根 据 分 
词 的 一 般 规 则 ， 经 过 分 词 的 语句 会 将 “费用 ”一 词 单独 分 割 出 来 ， 而 “费用 ”是 指 安装 费用 ， 还 是 热水器 费用 等 其 他 情况 ， 如 果 简 单 地 进行 词 频 统 计 及 情感 分 析 ， 是 无 法 识别 的 ， 从 而 也 无 法 准确 了 解 用 户 
反映 的 情况 。 运 用 LDA 主 题 模型 ， 可 以 求 得 词汇 在 主题 中 的 概率 分 布 ， 进 而 判断 “费用 ”一 词 属于 哪个 主题 ， 并 求 得 属于 这 一 主题 的 概率 和 同一 主题 下 的 其 他 特征 词 ， 从 而 解决 多 种 指 代 问题 。 

(3) 运用 LDA 模 型 进行 主题 分 析 的 实现 过 程 

在 本 章 商 品评 论 关注 点 的 研究 中 ， 即 对 评论 中 的 潜在 主题 进行 挖掘 ， 评 论 中 的 特征 词 是 模型 中 的 可 观测 变量 。 一 般 来 说 ， 每 则 评论 中 都 存在 一 个 中 心思 想 ， 即 主题 。 如 果 某 个 潜在 主题 同时 是 多 则 评论 


中 的 主题 ， 则 这 一 潜在 主题 很 可 能 是 整个 评论 语 料 集 的 热门 关注 点 。 在 这 个 潜在 主题 上 越 高 频 的 特征 词 将 越 可 能 成 为 热门 关注 点 中 的 评论 词 。 


首先 ， 为 提高 主题 分 析 在 不 同情 感 倾向 下 热门 关注 点 反映 情况 的 精确 度 ， 本 章 在 语义 网 络 情感 分 类 结果 的 基础 上 ， 对 不 同情 感 倾 向 下 的 潜在 主题 分 别 进行 挖掘 分 析 ， 从 而 得 到 不 同情 感 倾 向 下 用 户 对 热 
水 器 不 同方 面 的 反映 情况 。 例 如 ， 选 取 差 评 中 的 一 则 评论 “售后 服务 差 极 了 ， 不 买 他 们 的 材料 不 给 安装 ， 还 谎 称 免费 安装 ， 其 实 要 收 挺 贵 的 安装 费 ， 十 分 不 合理 。 这 也 算 了 ， 安 装 费 之 前 说 200 元 ， 安 好 之 
后 要 400 元 ， 更 贵 了 ， 更 加 不 合理 ， 不 管 是 安装 师傅 自己 还 是 美的 规定 ， 都 是 很 差 很 差 的 体验 ， 我 看 其 他 人 的 了 ， 一 样 的 安装 ， 比 别人 贵 的 安装 费 。 而 且 安装 师傅 做 事 粗糙 ， 态 度 粗鲁 。” 在 这 则 评论 
中 ，“ 安 装 费 ” 和 “安装 师傅 ”在 这 则 评论 中 出 现 频率 较 高 ， 可 作为 潜在 主题 。 同 时 ， 可 以 得 到 潜在 主题 上 特征 词 的 概率 分 布 情况 ， 反 映 潜 在 主题 “安装 费 ” 的 特征 词 包括 “ 贵 ” 、“ 不 合理 ”， 反 映 “ 安 
装 师傅 ”的 特征 词 包括 “粗糙 ” 、“ 粗 鲁 ”。 

然后 ， 分 别 统计 整个 评论 语料库 中 正 负 情感 倾向 的 主题 分 布 情况 ， 对 两 种 情感 颁 向 下 ， 各 个 主题 出 现 的 次 数 从 高 到 低 进 行 排序 ， 根 据 分 析 需 要 ， 选 择 排 在 前 若干 位 的 主题 作为 评论 集中 的 热门 关注 点 ， 
接着 根据 潜在 主题 上 特征 词 的 概率 分 布 情况 ， 得 到 所 对 应 的 热门 关注 点 的 评论 词 。 

本 章 运用 LD 人 A 主题 模型 的 算法 ， 并 采用 Gibbs 抽 样 方法 对 LDA 模 型 的 参数 进行 近似 估计 ， 由 上 面 的 模型 介绍 可 知 ， 模 型 中 存在 3 个 可 变量 需要 确定 最 佳 取 值 ， 分 别 是 狄 利克 雷 函 数 的 先 验 参数 a 和 PB、 主题 
个 数 K。 这 里 将 狄 利克 雷 函数 的 先 验 参数 a 和 B 设 置 为 经 验 值 ， 分 别 是 aq=50/K，B=0.1。 而 主题 个 数 K 采 用 统计 语言 模型 中 常用 的 评价 标准 困惑 度 [来 选取 ， 即 令 K=50。 


(4) LDA 模 型 的 实现 


虽然 LDA 可 以 直接 对 文本 做 主题 分 析 ， 但 是 文本 的 正面 评价 和 负面 评价 混淆 在 一 起 ， 并 且 由 于 分 词 粒 度 的 影响 (否定 词 或 程度 词 等 ) ， 可 能 在 一 个 主题 下 生成 一 些 令 人 迷惑 的 词语 。 因 此 ， 将 文本 分 为 


正面 评价 和 负面 评价 两 个 文本 ， 再 分 别 进行 LDA 主 题 分 析 是 一 个 比较 好 的 主意 。 


为 将 文本 一 分 为 二 ， 可 以 进行 手工 分 类 ， 但 是 极 耗 精力 和 时 间 。 为 此 ， 可 以 进行 机 器 标注 。 这 里 采用 ROSTCM 6 中 的 情感 分 析 做 机 器 分 类 ， 生 成 “正面 情感 结果 ”、 “负面 情感 结果 ”和 “中 性 情感 结 
果 ”， 抛 奔 “ 中 性 情感 结果 ”文本 ， 分 别 对 “正面 情感 结果 ”和 “负面 情感 结果 ”文本 进行 LDA 分 析 ， 挖 掘 出 商品 的 优点 与 不 足 。 


图 15-20 是 对 meidi ја ргосеѕѕ end.txt 得 到 的 负面 评价 文本 ， 由 于 ROSTCM 6 得 到 的 结果 还 有 评分 前 缀 ， 还 需要 对 前 缀 的 评分 删除 ， 并 且 分 类 文本 是 unicode 编 码 ， 则 统一 另存 为 UTF-8 编 码 再 删除 评 
删除 前 缀 评分 的 代码 如 代码 清单 15-3 所 示 。 


ЕЕ RA 


N 
过 
° 


个 我 说 我 自己 有 安装 师傅 说 
HE 


-1 

1-6 

-9 р. 元 

ГЕ k Sr hul; T kdna: 最 可 气 的 是 "apa ses 


SB 281 б IB J&1dquo 9538 PF&rdouo ; 3: 


图 15-20 ”负面 评价 文本 


代码 清单 15-3 ”删除 前 经 评分 代码 


# 把 “数据 及 程序 ”文件 夹 复制 到 F 盘 下 ， 再 用 Setwd 设 置 工作 空间 
setwd ("F: /数据 及 程序 /chapter15/ 示 例 程 序 ") 

# 读 入 数据 

Datal=readLines ("./data/meidi jd process епа 负面 情感 
Data2=readLines ("./data/meidi jd process end 正面 情感 
for (i in 1: length (Datal) ) 


WUDE=8") 
"UTF-8 "j 


253 txt", encoding 
结果 .txt", encoding 


{ 
Datal [i] =unlist (strsplit (Datal [i] , "NNt") ) [2] 


} 
for (i in 1: length (Data2) ) 
{ 


рава [i] =unlist (strsplit (Data2 [i] АЕ ) [2] 


write.table (Datal, "./tmp/meidi jd neg.txt", row.names=FALSE) 
write.table (Data2, "./tmp/meidi jd pos.txt", row.names=FALSE) 


* 代 码 详 见 : 示例 程序 /code/clean_ptefix.R 


接 下 来 需要 对 两 文本 进行 分 词 ， 保 存 成 两 个 TXT 文 档 ， 并 和 停 用 词 文档 一 起 作为 LDA 程 序 的 输入 。 分 词 代码 如 代码 清单 15-4 所 示 。 


代码 清单 15-4 ”分 词 代码 


# 加 载 工作 空间 

library (jiebaRD) 

library (Есрр) 

library (jiebaR) 

setwd ("F: /数据 及 程序 /chapter15/ 示 例 程序 ") 

Datal=readLines ("./data/meidi jd pos.txt", encoding = "UTF-8") 
Data2=readLines ("./data/meidi jd neg.txt", encoding = "UTF-8") 
cutter = worker () 

cutter <= Datal 

cutter2 = worker () 

cutter2 <= Data2 

write.table (cutter <= Datal, "./tmp/meidi ја пед cut.txt", row.names=FALSE) 
write.table (cutter2 <= Data2, "./tmp/meidi jd pos cut.txt", row.names=FALSE) 


* 代 码 详 见 : 示例 程序 /code/cut.R 


在 分 好 词 的 正面 评价 、 负 面 评价 文件 以 及 过 滤 用 的 停 用 词 表 的 基础 上 ， 完 成 LDA 的 代码 如 代码 清单 15-5 所 示 。 


代码 清单 15-5”LDA 代 码 


library (NLP) 

library (tm) 

library (slam) 

library (wordcloud) 

#R 语 言 环 境 下 的 文本 可 视 化 及 主题 分 析 


setwd ("Е: /数据 及 程序 /chapter15/ 示 例 程序 ") 
Datal=readLines ("./data/meidi jd pos cut.txt", encoding = "UTF-8") 
Data2=readLines ("./data/meidi jd neg cut.txt", encoding = "UTF-8") 


stopwords<- unlist (readLines ("./data/stoplist.txt", encoding = "UTF-8") ) 
# 删 除 stopwords 
removeStopWords = function (x, words) { 

ret = character (0) 

index <- 1 

it max <- length (x) 

while (index <= it max) { 
(length (words [words==x [index] |) <1) ret <- с (ret, x [index] ) 
index <- index +1 


P 
n 


} 
геі 
} 
sample.wordsl <- lapply (Datal, removeStopWords, stopwords) 
sample.words2 <- lapply (Data2, removeStopWords, stopwords) 
# 构 建 语料库 
corpusl = Corpus (VectorSource (sample.words1) ) 
# 建 立 文档 词 条 和 矩阵 
sample.dtml <- DocumentTermMatrix (corpusl, control = list (wordLengths = c (2, Inf) ) ) 
# 主 题 模型 分 析 
library (topicmodels) 
Gibbs = LDA (sample.dtml, К = 3, method = "Gibbs", control = list (seed = 2015, 
burnin = 1000, thin = 100, iter = 1000) ) 
# 最 可 能 的 主题 文档 
Topicl <- topics (Gibbs, 1) 
table (Topicl) 
# 每 个 Topic 前 10 个 Term 
Termsl <- terms (Gibbs, 10) 
Terms1 
FEHEM ЇЇ 2ë LDAZ- TT 
# 构 建 语料库 
corpus2 = Corpus (VectorSource (sample.words2) ) 
# 建 立 文档 15) £ AE £ 
sample.dtm2 <- DocumentTermMatrix (corpus2, control = list (wordLengths = c (2, Inf) ) ) 
# 主 题 模型 分 析 
library (topicmodels) 
Gibbs2 = LDA (sample.dtm2, К = 3, method = "Gibbs", control = list (seed = 2015, 
burnin = 1000, thin = 100, iter = 1000) ) 
# 最 可 能 的 主题 文档 
Торіс2 <- topics (Gibbs2, 1) 
table (Topic2) 


# 每 个 Topic 前 10 个 Term 
Terms2 <- terms (Сіррѕ2, 10) 
Terms2 


* 代 码 详 见 : 示例 程序 /code/LDA.R 


经 过 LDA 主 题 分 析 后 ， 评 论文 本 被 聚 成 3 个 主题 ， 每 个 主题 下 生成 10 个 最 有 可 能 出 现 的 词语 以 及 相应 的 概率 ， 表 15-2 显 示 了 美的 正面 评价 文本 中 的 潜在 主题 ， 表 15-3 展 示 了 美的 负面 评价 文本 中 的 潜在 


主题 。 


表 15-2 美的 正面 评价 潜在 主题 


主题 主题 2 主题 3 
很 好 
就 是 


好 Б р Ж) 


RD 
服务 
JEA 


表 15-3 美的 负面 评价 潜在 主题 


类 的 川 热 东西 


售后 FT AA 目 己 


好 П HJ L! 


根据 美的 热水器 好 评 的 3 个 潜在 主题 的 特征 词 提取 ， 主 题 1 中 的 高 频 特 征 词 ， 即 很 好 、 送 货 、 快 、 加 热 、 速 度 、 很 快 、 服 务 、 非 常 等 ， 主 要 反映 京东 送 货 快 、 服 务 非常 好 ; 美的 热水器 加 热 速度 快 ; 主题 
2 中 的 高 频 特 征 词 ， 即 热门 关注 点 主要 是 价格 、 东 西 、 值 得 等 ， 主 要 反映 美的 热水器 不 错 ， 价 格 合适 值得 购买 等 ; 主题 3 中 的 高 频 特 征 词 ， 即 热门 天 注 点 主要 是 售后 、 师 傅 、 上 门 、 安 装 等 ， 主 要 反映 京东 的 
售后 服务 以 及 师傅 上 门 安装 等 。 


从 美的 热水器 差 评 的 3 个 潜在 主题 中 ， 我 们 可 以 看 出 ， 主 题 1 中 的 高 频 特征 词 主要 是 安装 、 服 务 、 元 等 ， 主 要 反映 的 是 美的 热水器 安装 收费 高 、 热 水 器 售后 服务 不 好 等 ;主题 2 中 的 高 频 特 征 词 主要 是 不 
、 有 点 、 还 可 以 等 情感 词汇 ， 主 要 反映 的 是 美的 热水器 可 能 不 满足 其 需求 等 ; 主题 3 中 的 高 频 特 征 词 主要 是 没有 、 但 是 、 自 己 等 ， 可 能 主要 反映 美的 热水器 自己 安装 等 。 


kí 


综合 以 上 对 主题 及 其 中 的 高 频 特 征 词 可 以 看 出 ， 美 的 热水器 的 优势 有 以 下 几 个 方面 : 价格 实惠 、 性 价 比 高 、 外 观 好 看 、 热 水 器 实用 、 使 用 起 来 方便 、 加 热 速度 快 、 服 务 好 。 
相对 而 言 ， 用 户 对 美的 热水器 的 抱怨 点 主要 体现 以 下 几 个 方面 : 美的 热水器 安装 的 费用 贵 及 售后 服务 等 。 


因此 ， 用 户 的 购买 原因 可 以 总 结 为 以 下 几 个 方面 : 美的 大 品牌 值得 信赖 ， 美 的 热水器 价格 实惠 ， 性 价 比 高 。 


П 


根据 对 京东 平台 上 ， 美 的 热水器 的 用 户 评价 情况 进行 LDA 主 题 模型 分 析 ， 我 们 对 美的 品牌 提出 以 下 建议 : 
1) 在 保持 热水器 使 用 方便 、 价 格 实惠 等 优点 的 基础 上 ， 对 热水器 进行 改进 ， 从 整体 上 提升 热水器 的 质量 。 


2) 提升 安装 人 员 及 客服 人 员 的 整体 素质 ， 提 高 服务 质量 。 制 定安 装 费用 收取 明文 细则 ， 并 进行 公开 透明 ， 减 少 安装 过 程 的 乱 收 费 问题 。 适 度 降低 安装 费用 和 材料 费用 ， 以 此 在 大 品牌 的 竞争 中 凸显 优 
势 。 
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153 ”上 机 实验 


1. 实 验 目的 
. 学 习 运 用 R 语 言 对 文本 数据 做 数据 清洗 ( 预 处 理 ) 。 
.学习 运用 ROSTCM6 对 评论 文本 分 类 。 


:学习 运用 有 R 语 言 对 文本 做 分 词 处 理 。 


.加深 对 LDA 主 题 分 析 算 法 原理 的 理解 及 使 用 。 


` 掌握 使 用 LDA 主 题 分 析 工 法 解决 实际 问题 的 方法 。 


2. 实 验 内 容 


- 京东 评论 数据 中 有 众多 品牌 的 评论 ， 数 据 见 “上 机 实验 /data/huizong'csv”， 利 用 R 语 言 从 csy 文 件 中 ， 提 取出 某 个 品牌 的 评论 数据 (如 海尔 ) ， 并 对 数据 做 预 处 理 。 
将 原始 数据 做 完 预 处 理 后 ， 再 利用 ROSTCM6 划 分 评论 数据 ， 并 对 两 个 文本 做 分 词 处 理 和 LDA 主 题 分 析 。 
3. 实 验方 法 与 步 又 

(1) 实验 一 
第 一 步 ， 打 开 R 语 言 软件 ， 新 建 excel2txt.R。 
第 二 步 ， 使 用 readLines 函 数 读 取 数 据 ， 并 筛选 出 某 个 品牌 的 评论 ， 保 存 成 TXT 文件 (编码 统一 用 UTF-8， 下 同 ) 。 

1) 依次 编写 clean_same.R 函 数 和 clean_prefix.R 函 数 ; 

2) clean_same 国 数 可 应 用 unique 来 高 效 去 重 ， 也 可 以 两 重 for 循 环比 较 去 重 ; 

3) clean_prefix. 国 数 对 于 各 个 类 别 的 评分 进行 删除 。 

第 三 步 ， 编 写 并 运行 程序 后 ， 与 之 前 的 对 比 ， 观 察 预 处 理 后 的 效果 。 

(2) 实验 二 

第 一 步 ， 利 用 ROSTCM6 将 预 处 理 后 的 文本 一 分 为 二 (只 保留 正面 评价 和 负面 评价 ) 。 

1) 打开 ROSTCM6 软 件 ， 选 择 “ 功 能 性 分 析 ” 一 “情感 分 析 ”; 

2) 在 “ 待 分 析 文 件 路 径 ” 中 选择 预 处 理 后 的 文件 路 径 ， 点 击 “ 分 析 ”; 

3) 将 得 到 的 正面 评价 和 负面 评价 文本 另存 为 到 “\ 上 机 实验 \ data \ ”目录 下 ， 并 将 编码 改 回 UTF-8 (而 非 unicode) ; 

4) 编写 clean_prefix.R 代 码 ， 运 用 正则 表达 式 将 上 述 两 个 文本 的 前 经 评分 和 空格 去 除 ， 保 存 为 meidi_jd_pos.txt 和 meidi_jd_pos.txt 文 本 。 

第 二 步 ， 利 用 jieba 模 块 分 别 对 上 述 所 得 的 两 个 文本 做 分 词 ， 为 达到 更 好 的 分 词 效 果 ， 添 加 了 自 定义 词典 myDict.txt (在 “\ data” 中 ) ， 可 以 尝试 往 myDict.txt 中 自 定义 编辑 添加 词组 。 
第 三 步 ， 编 写 LDA.R 代 码 ， 分 别 运 行 meidi ја роѕ cut.txt 和 meidi ја pos _cut.txt 文 本 ， 分 析 产 品 的 优点 和 不 足 。 

4. 思 考 与 实验 总 结 


如 何在 R 中 实现 情感 分 析 ， 将 评论 内 容 分 为 正面 和 负面 评价 ? 


154 拓展 思考 


AHP (Analytical Hierachy Process， 应 用 层次 分 析 法 ) 是 匹兹堡 大 学 T.L.Saaty 教 授 在 20 世 纪 70 年 代 初 期 提出 对 定性 问题 进行 定量 分 析 的 一 种 渐变 灵活 的 多 准则 决策 方案 ， 其 特点 在 于 把 复杂 问题 中 的 
各 种 因素 通过 划分 为 相互 联系 的 有 序 层次 ， 使 之 条 理化 ， 根 据 对 有 一 定 客观 现实 的 主观 两 两 比较 ， 把 专家 意见 和 分 析 者 的 客观 判断 结果 直接 有 效 地 结合 起 来 ， 而 后 利用 数学 方法 计算 每 一 层 元 素 相对 重要 性 
次 序 的 权 值 ， 最 终 通 过 所 有 层次 间 的 总 排序 计算 所 有 元 素 的 相对 权重 并 进行 排序 从 而 分 析 消 费 者 决策 。 


РСЕ (Fuzzy Comprehensive Evaluation， 模 糊 综合 评判 ) 是 在 20 世 纪 80 年 代 初 ， 由 我 国 模糊 数学 领域 的 汪 培 庄 教授 提出 的 ， 并 通过 广大 实际 工作 者 不 断 的 补充 发 展 ， 衍 生出 了 适用 于 各 种 领域 的 评 
判 方法 。 模 糊 综合 评判 的 过 程 可 简 述 为 : 决策 者 将 价目 表 看 成 是 由 多 重 因素 组 成 的 因素 集 U， 再 设 定 这 些 因 素 所 能 选取 的 评审 等 级 ， 组 成 评语 的 评判 集合 V， 分 别 求 出 各 单一 因素 对 各 个 评审 等 级 的 模糊 矩 
阵 ， 然 后 根据 各 个 因素 在 评价 中 的 权重 分 配 ， 通 过 模糊 矩阵 合成 ， 求 出 评价 的 定量 值 。 

但 是 这 两 种 方法 各 有 利弊 : AHP 能 够 准确 地 对 决策 定性 ， 但 其 决策 过 程 需要 经 过 大 量 数据 比 对 最 终 通过 概率 确定 权重 ; 而 FCE 虽 然 有 很 好 的 定量 评价 但 是 无 法 很 好 地 对 决策 定性 。 请 利用 本 案例 的 数 


据 ， 尝 试 通过 对 二 者 的 结合 来 实现 对 电 商 平台 上 热水器 的 购买 决策 分 析 。 


- 


AHP-FCE 模 型 需要 经 历 以 下 三 个 步 又， 具体 流程 如 图 15-21 所 示 。 
划分 因素 层 ; 
: 应 用 AHP 构 造 消 费 者 心理 的 隶属 函数 和 因素 权 集 合 ; 


© 对 所 求 结果 进行 综合 评判 。 


划分 影响 因素 
划分 购买 因素 确证 评判 准则 集 


构造 购买 决策 的 隶属 函数 和 因素 权 集 
”| "用 1-9 标 度 法 对 评价 指标 定性 描述 并 量化 
应 用 AHE 进 行 |。 确定 判断 矩阵 并 对 其 进行 一 致 性 检验 
定性 描述 


进行 综合 评判 ， 建 立 评判 集 
用 隶属 度 分 别 描述 各 子 因素 相对 于 评判 集 的 隶属 程度 
对 购买 决策 进行 得 出 单 因 素 模 糊 判 断 和 矩阵 
FCE 综 合 进行 一 级 模糊 综合 评判 和 二 级 模糊 综合 评判 
评判 


图 15-21 AHP-FCE 模 型 
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本 章 结合 京东 商城 美的 热水器 评论 的 文本 分 析 的 案例 ， 重 点 介绍 了 数据 挖掘 算法 中 文本 挖掘 分 词 算法 以 及 LDA 主 题 模 型 在 实际 案例 中 的 应 用 。 研 究 京东 平台 上 的 热水器 评论 问题 ， 从 分 析 某 一 热水器 的 
用 户 情 感 倾 向 出 发 挖掘 出 该 热水器 的 优点 与 不 足 ， 从 而 提升 对 应 商品 生产 厂家 自身 的 竞争 力 ， 同 时 提供 上 机 实验 加 深 对 LDA 主 题 分 析 算 法 原理 的 理解 及 使 用 。 
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16.1 混合 编程 应 用 体验 一 一 TipDM 数 据 挖 所 平台 


顶尖 数据 挖掘 平台 (TipDM) 是 广州 TipDM 团 队 花 费 数 年 时 间 自主 研发 的 一 个 数据 挖 所 平台， 基于 SOA 架 构 ， 使 用 Java 语 言 开 发 ， 能 从 各 种 数据 源 获 取 数 据 ， 建 立 各 种 不 同 的 数据 挖 握 模 型。 系统 支持 
数据 挖掘 流程 所 需 的 主要 过 程 ， 并 提供 开放 的 应 用 接口 和 常用 算法 ， 能 够 满足 各 种 复杂 的 应 用 需求 。TipDM 以 智能 预测 技术 为 核心 ， 并 提供 开放 的 应 用 接口 。TipDM 的 底层 算法 ， 主 要 基于 R、WEKA、 
Mahout 等 通过 封装 形成 ， 所 以 建 模 输出 结果 与 这 几 个 工具 的 输出 类 同 。 使 用 过 程 中 ， 用 户 也 可 以 嵌入 自己 开发 的 其 他 任何 算法 。 


下 面 以 实现 网 站 访问 用 户 聚 类 为 例 ， 先 来 体验 一 人 TipDM 数 据 挖 掘 平台 的 魅力 ! 
1. 建 设 目标 


全 国 大 学 生 数 据 挖掘 竞赛 网 站 (www.tipdm.org) 是 一 个 致力 于 为 高 校 师 生 提 供 各 类 数据 挖掘 资源 、 资 讯 和 竞赛 活动 开展 的 综合 性 网 站 ， 高 校 师 生 可 通过 网 站 获取 到 所 需 的 竞赛 通知 、 教 学 资源 、 项 目 
需求 、 培 训 课程 等 信息 。 访 问 网 站 的 用 户 很 多 ， 但 不 同 用户 群 体感 兴趣 的 内 容 不 一 样 ， 适 合 推荐 的 服务 也 不 一 样 ， 有 的 用 户 对 数据 挖掘 领域 不 是 太 熟 悉 ， 相 关 的 技术 还 不 熟悉 ， 此 时 就 需要 提供 相应 的 培训 
资源 ， 有 的 用 户 是 寻求 企业 级 的 数据 挖掘 服务 ， 希 望 找到 数据 挖掘 在 企业 方面 的 应 用 ， 此 时 就 需要 提供 相应 的 企业 应 用 服务 资源 。 对 于 网 站 而 言 ， 可 结合 用 户 访问 网 站 的 行为 ， 挖 掘 出 不 同 用 户 群 体 ， 推 荐 
匹配 的 服务 ， 提 高 用 户 留 存 率 。 


用 户 访问 网 站 中 不 同类 别 网 页 的 次 数 反映 了 用 户 的 倾向 ， 网 站 网 页 以 一 级 标签 和 二 级 标签 进行 了 标识 ， 统 计 用 户 访问 不 同 标签 网 页 的 次 数 能 作为 用 户 聚 类 的 指标 ， 考 虑 到 网 站 建设 的 目的 是 有 效 组 织 妆 
据 挖 掘 竞赛 活动 、 提 供 培训 咨询 服务 和 企业 数据 挖掘 应 用 研发 合作 ， 聚 类 的 指标 可 针对 这 三 方面 进行 设计 ， 将 用 户 划分 为 不 同 的 群体 后 可 针对 相应 的 群体 推荐 不 同 的 业务 。 


2. 模 型 构建 


(1) 创建 模型 方案 


根据 建设 目标 ， 本 例 需要 构建 如 下 预测 模型 : 网 站 访问 用 户 聚 类 模型 (Modell) 登录 TipDM 平 台 ， 创 建 模型 方案 ， 如 图 16-1 所 示 。 
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图 16-1 创建 方案 


(2) 专家 样本 管理 


在 方案 管理 界面 中 ， 双 击 激活 该 方案 ， 在 数据 管理 界面 中 导入 网 站 访问 用 户 聚 类 的 样本 数据 ， 如 图 16-2 所 示 。 
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(3) 数据 探索 和 预 处 理 

模型 预测 的 质量 不 会 超过 抽取 样本 的 质量 。 数 据 探索 和 预 处 理 的 目的 是 保证 样本 数据 的 质量 ， 从 而 为 保证 预测 质量 打下 基础 。 


数据 探索 是 对 导入 系统 中 的 数据 进行 初步 研究 ， 以 便 更 好 地 理解 它 的 特殊 性 质 ， 有 助 于 选择 合适 的 数据 预 处 理 和 数据 分 析 技 术 。 数 据 探索 包括 : 相关 性 分 析 、 主 成 分 分 析 、 周 期 性 分 析 、 脏 数据 分 析 
等 。 


数据 预 处 理 主要 包括 缺失 值 处 理 、 坏 数据 处 理 、 属 性 选择 、 数 据 规 约 、 离 散 处 理 、 特 征 提取 等 。 图 16-3 为 对 导入 的 样本 数据 进行 属性 选择 。 


(4) 模型 训练 


模型 训练 是 针对 导入 的 专家 样本 数据 ， 在 设置 好 建 模 参数 后 ， 进 行 模型 构建 ， 图 16-4 为 采用 K-Means 算 法 进行 模型 训练 的 操作 界面 。 


(5) 模型 评价 


模型 训练 完成 后 ， 根 据 输出 信息 对 模型 结果 进行 评价 ， 如 图 16-5 和 图 16-6 所 示 。 


spit 


200001.0 


200002.0 
200006.0 
200007.0 


200009.0 


图 16-3 ”数据 预 处 理 
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图 16-5 “模型 结果 
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图 16-6 ”模型 输出 图 
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16.1 ”混合 编程 应 用 体验 一 一 TipDM 数 据 挖掘 平台 


顶尖 数据 挖掘 平台 (TipDM) 是 广州 TipDM 团 队 花 费 数 年 时 间 自主 研发 的 一 个 数据 挖 所 平台， 基于 SOA 架 构 ， 使 用 Java 语 言 开 发 ， 能 从 各 种 数据 源 获 取 数 据 ， 建 立 各 种 不 同 的 数据 挖 握 模 型。 系统 支持 
数据 挖掘 流程 所 需 的 主要 过 程 ， 并 提供 开放 的 应 用 接口 和 常用 算法 ， 能 够 满足 各 种 复杂 的 应 用 需求 。TipDM 以 智能 预测 技术 为 核心 ， 并 提供 开放 的 应 用 接口 。TipDM 的 底层 算法 ， 主 要 基于 R、WEKA、 
Mahout 等 通过 封装 形成 ， 所 以 建 模 输出 结果 与 这 几 个 工具 的 输出 类 同 。 使 用 过 程 中 ， 用 户 也 可 以 嵌入 自己 开发 的 其 他 任何 算法 。 


下 面 以 实现 网 站 访问 用 户 聚 类 为 例 ， 先 来 体验 一 人 TipDM 数 据 挖 掘 平台 的 魅力 ! 
1. 建 设 目标 


全 国 大 学 生 数 据 挖掘 竞赛 网 站 (www.tipdm.org) 是 一 个 致力 于 为 高 校 师 生 提 供 各 类 数据 挖掘 资源 、 资 讯 和 竞赛 活动 开展 的 综合 性 网 站 ， 高 校 师 生 可 通过 网 站 获取 到 所 需 的 竞赛 通知 、 教 学 资源 、 项 目 
需求 、 培 训 课程 等 信息 。 访 问 网 站 的 用 户 很 多 ， 但 不 同 用 户 群 体感 兴趣 的 内 容 不 一 样 ， 适 合 推荐 的 服务 也 不 一 样 ， 有 的 用 户 对 数据 挖掘 领域 不 是 太 熟 悉 ， 相 关 的 技术 还 不 熟悉 ， 此 时 就 需要 提供 相应 的 培训 
资源 ， 有 的 用 户 是 寻求 企业 级 的 数据 挖掘 服务 ， 希 望 找到 数据 挖掘 在 企业 方面 的 应 用 ， 此 时 就 需要 提供 相应 的 企业 应 用 服务 资源 。 对 于 网 站 而 言 ， 可 结合 用 户 访问 网 站 的 行为 ， 挖 掘 出 不 同 用 户 群 体 ， 推 荐 
匹配 的 服务 ， 提 高 用 户 留 存 率 。 


用 户 访问 网 站 中 不 同类 别 网 页 的 次 数 反映 了 用 户 的 倾向 ， 网 站 网 页 以 一 级 标签 和 二 级 标签 进行 了 标识 ， 统 计 用 户 访问 不 同 标签 网 页 的 次 数 能 作为 用 户 聚 类 的 指标 ， 考 虑 到 网 站 建设 的 目的 是 有 效 组 织 妆 


据 挖 掘 竞赛 活动 、 提 供 培训 咨询 服务 和 企业 数据 挖掘 应 用 研发 合作 ， 聚 类 的 指标 可 针对 这 三 方面 进行 设计 ， 将 用 户 划分 为 不 同 的 群体 后 可 针对 相应 的 群体 推荐 不 同 的 业务 。 


等 。 


2. 模 型 构建 


(1) 创建 模型 方案 


根据 建设 目标 ， 本 例 需要 构建 如 下 预测 模型 : 网 站 访问 用 户 聚 类 模型 (Modell) 登录 TipDM 平 台 ， 创 建 模型 方案 ， 如 图 16-1 所 示 。 
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图 16-1 创建 方案 


(2) 专家 样本 管理 


在 方案 管理 界面 中 ， 双 击 激活 该 方案 ， 在 数据 管理 界面 中 导入 网 站 访问 用 户 聚 类 的 样本 数据 ， 如 图 16-2 所 示 。 
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图 16-2 ”导入 样本 数据 
(3) 数据 探索 和 预 处 理 
模型 预测 的 质量 不 会 超过 抽取 样本 的 质量 。 数 据 探索 和 预 处 理 的 目的 是 保证 样本 数据 的 质量 ， 从 而 为 保证 预测 质量 打下 基础 。 


数据 探索 是 对 导入 系统 中 的 数据 进行 初步 研究 ， 以 便 更 好 地 理解 它 的 特殊 性 质 ， 有 助 于 选择 合适 的 数据 预 处 理 和 数据 分 析 技 术 。 数 据 探索 包括 : 相关 性 分 析 、 主 成 分 分 析 、 周 期 性 分 析 、 脏 数据 分 析 


数据 预 处 理 主要 包括 缺失 值 处 理 、 坏 数据 处 理 、 属 性 选择 、 数 据 规 约 、 离 散 处 理 、 特 征 提取 等 。 图 16-3 为 对 导入 的 样本 数据 进行 属性 选择 。 


(4) 模型 训练 


模型 训练 是 针对 导入 的 专家 样本 数据 ， 在 设置 好 建 模 参数 后 ， 进 行 模型 构建 ， 图 16-4 为 采用 K-Means 算 法 进行 模型 训练 的 操作 界面 。 


(5) 模型 评价 


模型 训练 完成 后 ， 根 据 输出 信息 对 模型 结果 进行 评价 ， 如 图 16-5 和 图 16-6 所 示 。 
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图 16-3 ”数据 预 处 理 
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图 16-5 “模型 结果 
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图 16-6 ”模型 输出 图 


162 ”二 次 开发 过 程 环 境 配 置 


开发 环境 的 软件 版 本 列表 如 表 16-1 所 示 。 


表 16-1 软件 版 本 列表 
软件 备注 
操作 系统 Windows8 64bit 操作 系统 版 本 使 用 Windows7 处 可 
Eclipse Eclipse 4. 4. 2 


1.R 语 言 的 配置 
双击 R 客 户 端 ， 进 入 R 命 令 行 ， 使 用 install.packages 命 令 安装 Rserve 和 RODBC 包 。 具 体 命令 如 代码 清单 16-1 所 示 。 


代码 清单 16-1 安装 Rserve 和 RODBC 包 


10 12 14 


& 


0 2 4 6 


install.packages ('Rserve') 
install.packages ('RODBC') 


2.Java 的 安装 与 配置 
从 Oracle 的 官网 下 载 最 新 的 Windows 版 本 的 JDK，JDK 是 整个 Java 的 核心 ， 包 括 Java 的 运行 环境 、Java 工 具 和 Java 基 础 类 库 。 根 据 安装 向 导 提 示 完 成 JDK 安 装 。 


ЈАМА НОМЕ 


АМТ НОМЕ D:NVant1.9 

classpath %JAVA_HOME%NV:ibitools.Jar%&JAVA_ HO... 
ComSpec CWindows\system32\cmd.exe 

CXF HOME Е\арасһе-схі-3.0.0-теѕёопе1 


9167 配置 系统 变量 JAVA_HOME 


JDK 安 装 完成 后 还 需要 设置 环境 变量 。 打 开 系 统 属性 ， 选 择 “高 级 ”选项 卡 ， 点 击 “ 环 境 变量 ”， 新 建 系统 变量 JAVA_HOME， 设 置 变量 值 为 JDK 的 安装 目录 ， 如 本 示例 的 为 “D: /Program 


Files/Java/jdk1.7.0 75” ， 注 意 不 包括 “” ， 如 图 16-7 所 示 。 新 建 系统 变量 classpath， 设 变量 值 为 “%JAVA_HOME% \ lib \toolsjar; %JAVA_HOME% N lib N dt.jar”， 编 辑 系统 变量 Path ， 添 加 变量 


值 为 “%JAVA_HOME% N bin; ”， 如 图 16-8 和 图 16-9 所 示 。 


最 后 ， 打 开 命令 行 ， 输 入 java-version 查 看 是 否 有 对 应 的 版 本 信息 输出 ， 以 验证 安装 是 否 成 功 。 


Ж 
WJAVA_ HOME%\libitoolsJar%JAVA_HO... 8 
CAWindows\system32\cmd.exe 
E:Xapache-cxf-3.0.0-milestone1 


图 16-8 配置 系统 变量 classpath 


Моде!ег\14\[һп\;.%АУА_НОМЕ%\ып;С:\Р| 


їн ч 


DAProgram Files (х86)\18М\5255 Model.. 
РАТНЕХТ СОМ: ЕХЕ: ВАТ CMD: .VBS:.VBE:.]S: JSE: ü 


TETI 
й 


PROCESSOR_AR.. AMD64 
PROCESSOR_IDE... Intel64 Family 6 Model 37 Stepping 2, G... 


图 16-9 ”配置 系统 变量 Path 


163 R 语 言 数据 挖 所 二 次 开 友 实例 
Rserve 是 一 个 基于 TCP/IP 协 议 的 ， 人 允许 R 语 言 与 其 他 语言 通信 的 C/S 结 构 的 程序 ， 支 持 C/C++、Java、PHP、Python、Ruby、Nodejs 等 。Rserve 提 供 远 程 连接 、 认 证 、 文 件 传 输 等 功能 。 了 解 更 多 
Rserve 人 信息， 可 访问 Rserve 的 官方 网 站 : http://www.rforge.net/Rserve/, 


本 节 将 以 K-Means 模 型 为 例 ， 详 细 介 绍 如 何在 Java 环 境 下 通过 Rserve 来 远程 连接 R 服 务 器 ， 实 现 K-Means 聚 类 。 实 例 中 的 数据 为 上 一 节 网 站 访问 用 户 聚 类 样本 数据 ( 见 表 16-2) ， 记 录 了 每 个 用 户 访问 
数据 挖掘 培训 网 页 数 (datamining_pages) 、 企 业 应 用 网 页 数 (dataminingcontest pages) 和 数据 挖掘 竞赛 网 页 数 (enterpriseapp_pages) ， 通 过 聚 类 分 析 能 够 发 现 用 户 的 偏好 。 


表 16-2 网 站 访问 用 户 聚 类 样本 数据 


200011 | | 
200013 
200015 
200016 
200019 
200021 


pi 


200030 


* 数 据 详 见 : 示例 程序 /data/cluster_data.xls 
双击 R 客 户 端 ， 进 入 R 命 令 行 ， 使 用 install.packages 命 令 安装 Rserve 和 RODBC 包 ， 并 且 调 用 Rserve 函 数 以 远程 方式 启动 Rserve。 具 体 命令 如 代码 清单 16-2 所 示 。 


代码 清单 16-2 ”远程 方式 启动 Rserve 代 码 


іпѕёа11.раскадеѕ ('Rserve') 
install .packages ('RODBC') 

library ('Rserve') 

Rserve (args='--RS-enable-remote') 


在 Eclipse 中 创建 Java 工 程 ， 将 R HOME/library/Rserve/Java 下 的 jar 包 添加 到 工程 的 classpath， 工 程 目录 结构 如 图 16-10 所 示 。 
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新 建 Java 类 ， 编 写 代 码 如 代码 清单 16-3 所 示 。 


代码 清单 16-3 ”R 语 言 二 次 开发 代码 


asspat 
roject 


Шы 


RserveEngine,ar 
Libraries 
REngine.Jar 
rve.jar 
sslon.jar 
JRE System Library [Sun JDK 1.6.0 13] 


图 16-10 工程 目录 结构 


// 配 置 连接 信息 


RserverCon 


conf 


Rsession session = Rsession .new] 


// 设 置 聚 类 参数 {n: 聚 类 数 ，i: 迭代 次 数 ，a: 聚 类 算法 ， 可 选项 有 ["Hartigan-Wong"， "Lloyd", 
"Forgy", "MacQueen"| } 


session.set ("n", 3); 
session.set ("i", 500); 
session.set ("a", "Forgy") ; 


о CD 


tringBuilder sb = new StringBuilder () ; 
tring line = "/п"; 
sb.append ("library (ROI 


sb.append ("source = odbcConnectExcel2007 
sb.append ("data = sqlFetch (source, 'Sheet1') ") .append (line) ; 
sb.append ("kmeansdata = data [, 2: ncol ( 
sb.append ("kmeansresult=kmeans (kmeansdata, n, i, algorithm=a) ") .append (line) ; 
sb.append ("jpeg (file='cluster.jpeg') ") .append (line) ; 

sb.append ("plot (kmeansdata, col=kmeansresult$cluster) ") .append (line) ; 
sb.append ("dev.off () ") .append (line) ; 
sb.append ("kmeansdata=cbind (kmeansdata, kmeansresult$cluster) ") .append (line) ; 


sb.append ("colnames (kmeansdata) 


DBC) ") .append (line) ; 


('D: /sample/data.xls') ") .append (line) 


data) ] ") .append (line) ; 


sb.append ("centers = capture.output (kme 
sb.append ("size = capture.output (kmeans 


session.eval (sb.toString () ) ; 


SYS 


tin (" 聚 类 中 心 点 : "+session 


Sys 


Sys 
Sys 


tem.out.prin 
tem.out.prin 
tem.out.prin 
tem.out.prin 


tln ("样本 占 比 : "+session.a 


session.end () ; conn.close () ; 


ansresult$centers) ") .append (line) ; 
result$size) ") .append (line) ; 


t$cluster) ") .append (line) ; 


.asString ("centers") ) ; 


tln ("样本 数 : "+session.asString ("size") ) ; 


sString ("percent") ) ; 


> 


[псо1 (kmeansdata) | ='clusterId'") .append (line) ; 


tlin ("分 群 结果 : "+session.asString ("capture.output (kmeansdata) ") ) ; 


= new RserverConf ("localhost", 6311, null, null, new Properties О); 
[nstanceTry (System.out, conf) ; 


.append ("percent = capture.output (kmeansresult$size*100/sum (kmeansresult$size) ) ") .append (line) ; 
.append ("predicts = array (kmeansresul 


运行 代码 ， 聚 类 完成 后 ， 在 控制 台 输 出 聚 类 信 


息 ( 见 表 16-3) 、 分 群 结果 ( 见 表 16-4) 和 聚 


类 结 


ЖЕ (图 16-11) 。 


表 16-3 聚 类 信息 


ЕЗЕН Уда: [1]" datamining_pages dataminingcontest_pages епіегрпѕеарр радеѕ ` 
[21"1 12. 666 666 7 0. 666 666 7 0. 333 333 3" 
ЕИ 5. 709 677 4 О. 741 935 5 1. 193 546 4" 
[4]"3 0. 854 166 7 0. 354 166 7 0. 708 333 3" 
样本 数 : [1]" [1] 6 3] 48" 

样本 占 比 : [1]" [1] 7. 058 824 36. 470 588 56. 470 588" 


Ж16-4 分群 结果 


分 群 结果 : [1]" datamining_pages dataminingcontest_pages enterpriseapp_pages clusterld" 
[2 ]"1 7 Ü 2 2" 
[3]"2 5 Ü l a" 
[ 本 | "3 l l Ü ai 
[5]"4 0 0 | 3" 
[61"5 6 | 0 э 
[了 ] "6 2 1 0 3" 
[8]"7 4 0 0 2" 
19 |"8 | 0 0 3" 
[10]"9 0 0 0 3" 
[11]"10 7 2 Ü А! 
[12]"11 9 3 0 э" 
[83 ]"82 6 1 6 a 
| 84 | "83 2 3 4 3" 
|85 "84 13 | 0 1" 
| 86 "85 5 0 6 э" 
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本 章 首 先 介绍 了 基于 R 语 言 二 次 开发 的 数据 挖掘 应 用 软件 TipDM 数 据 挖 气 平台， 并 以 此 平台 介绍 了 如 何 使 用 此 平台 进行 挖掘 建 模 ， 包 括 挖掘 建 模 的 各 个 步骤 ， 使 读者 可 以 切身 体验 到 R 语 言 二 次 开发 平台 
的 强大 魅力 。 接 着 ， 针 对 R 语 言 二 次 开发 做 了 重点 介绍 ， 主 要 使 用 与 Java 的 混合 编程 进行 展示 ， 最 后 给 出 Java 程 序 调用 R 语 言 代 码 进 行 聚 类 运算 的 实例 。 


